OpenVINO™ 推論要求#

OpenVINO™ ランタイムは、非同期または同期してさまざまなデバイス上でモデルを実行する推論要求メカニズムを使用します。ov::InferRequest クラスは、OpenVINO™ ランタイム内でこの目的に使用されます。このクラスを使用すると、モデルの入力、出力データを設定および取得し、モデルの推論を実行できます。

推論要求の作成#

ov::InferRequest は ov::CompiledModel から作成できます:

Python

infer_request = compiled_model.create_infer_request()

C++

auto infer_request = compiled_model.create_infer_request();

入力テンソルとテンソルの動作#

ov::InferRequest を使用すると、モデルに入力または出力が 1 つしかない場合、テンソル名、インデックス、ポートによって、引数なしで入力/出力テンソルを取得できます。

ov::InferRequest::get_input_tensor、ov::InferRequest::set_input_tensor、ov::InferRequest::get_output_tensor、ov::InferRequest::set_output_tensor 引数なしのメソッドを使用して、入出力が 1 つだけあるモデルの入出力テンソルを取得または設定できます:
Python
input_tensor = infer_request.get_input_tensor() output_tensor = infer_request.get_output_tensor()
C++
auto input_tensor = infer_request.get_input_tensor(); auto output_tensor = infer_request.get_output_tensor();
ov::InferRequest::get_input_tensor、ov::InferRequest::set_input_tensor、ov::InferRequest::get_output_tensor、ov::InferRequest::set_output_tensor 引数付きのメソッドを使用して、入出力インデックスによって入出力テンソルを取得または設定できます:
Python
input_tensor = infer_request.get_input_tensor(0) output_tensor = infer_request.get_output_tensor(0)
C++
auto input_tensor = infer_request.get_input_tensor(0); auto output_tensor = infer_request.get_output_tensor(1);
ov::InferRequest::get_tensor、ov::InferRequest::set_tensor メソッドを使用して、テンソル名によって入出力テンソルを取得または設定できます:
Python
tensor1 = infer_request.get_tensor("result") tensor2 = ov.Tensor(ov.Type.f32, [1, 3, 32, 32]) infer_request.set_tensor(input_tensor_name, tensor2)
C++
auto tensor1 = infer_request.get_tensor("tensor_name1"); ov::Tensor tensor2; infer_request.set_tensor("tensor_name2", tensor2);
ov::InferRequest::get_tensor、ov::InferRequest::set_tensor メソッドを使用して、ポートごとに入出力テンソルを取得または設定できます:
Python
input_port = model.input(0) output_port = model.input(input_tensor_name) input_tensor = ov.Tensor(ov.Type.f32, [1, 3, 32, 32]) infer_request.set_tensor(input_port, input_tensor) output_tensor = infer_request.get_tensor(output_port)
C++
auto input_port = model->input(0); auto output_port = model->output("tensor_name"); ov::Tensor input_tensor; infer_request.set_tensor(input_port, input_tensor); auto output_tensor = infer_request.get_tensor(output_port);

推論要求の使用例#

以下に、推論要求の使用例を示します。

モデルのカスケード#

ov::InferRequest を使用して、モデルのカスケードを編成できます。推論要求はモデルごとに必要です。この場合、ov::InferRequest::get_tensor を使用して最初の要求から出力テンソルを取得し、ov::InferRequest::set_tensor を使用してそれを 2 番目の要求の入力として設定できます。2 番目のモデルが開始される前に最初の推論要求が再度実行されると、コンパイルされたモデル間で共有されるテンソルが最初のモデルによって書き換えられる可能性があることに注意してください。

Python

output = infer_request1.get_output_tensor(0) 
infer_request2.set_input_tensor(0, output)

C++

auto output = infer_request1.get_output_tensor(0); 
infer_request2.set_input_tensor(0, output);

ROI テンソルの使用#

共有入力を複数のモデルで再利用することもできます。以前のモデルの割り当て済み入力内にある ROI オブジェクトを処理する場合、モデルに別の入力テンソルを割り当てる必要はありません。例えば、最初のモデルがビデオフレーム内のオブジェクト (入力テンソルとして保存) を検出し、2 番目のモデルが検出された境界ボックス (フレーム内の ROI) を入力として受け入れる場合。この場合、ov::Tensor と ov::Coordinate をパラメーターとして渡し、ov::Tensor を使用することで、(最初のモデルで使用された) あらかじめ割り当てられた入力テンソルを 2 番目のモデルで再利用し、新しいメモリーを割り当てずに ROI をクロップすることができます。

Python

# input_tensor は前のネットワークの入力を指し、 
# cropROI には出力境界ボックスの座標が含まれます 
input_tensor = ov.Tensor(type=ov.Type.f32, shape=ov.Shape([1, 3, 100, 100])) 
begin = [0, 0, 0, 0] 
end = [1, 3, 32, 32] 
# ...

C++

/** input_tensor は前のネットワークの入力を指し、 
    cropROI には出力境界ボックスの座標が含まれます **/ 
ov::Tensor input_tensor(ov::element::f32, ov::Shape({1, 3, 20, 20})); 
ov::Coordinate begin({0, 0, 0, 0}); 
ov::Coordinate end({1, 2, 3, 3}); 
//...

リモートテンソルの使用#

ov::RemoteContext を使用すると、リモート・デバイス・メモリーを操作するリモートテンソルを作成できます。

Python

# サポートされるません

C++

ov::RemoteContext context = core.get_default_context("GPU"); 
auto input_port = compiled_model.input("tensor_name");

OpenVINO™ 推論要求#

推論要求の作成#

推論の実行#

同期モード#

非同期モード#

入力テンソルとテンソルの動作#

推論要求の使用例#

モデルのカスケード#

ROI テンソルの使用#

リモートテンソルの使用#