OpenVINO™ による推論の実行

OpenVINO ランタイムは、C および Python バインディングを備えた C++ ライブラリーのセットであり、選択したプラットフォームで推論をデプロイするため共通 API を提供します。サポートされるモデル形式を直接実行することも、モデルを変換して OpenVINO IR 形式に保存することもでき、パフォーマンスを最大化できます。

OpenVINO IR 推論が高速な理由は? サポートされるモデルを直接実行した場合でも、推論前に変換されます。利便性を最大限に高めるため、内部で自動的に実行される場合もありますが、パフォーマンスを重視するユースケースには適していません。例えば、PyTorch を変換するには、通常、変換プロセスに加えて、Python と torch モジュールが必要であり、それらは時間とメモリーを消費します。OpenVINO IR を使用する場合、推論アプリケーションは C または C++ で作成できるため、変換や追加の依存関係はありません。OpenVINO IR は、これまでで最高の第一推論レイテンシー・スコアを達成しています。

サポートされているモデル形式を変換、読み取り、コンパイルする方法の詳細については、モデルの準備を参照してください。

TensorFlow モデルは、TensorFlow の変換または推論の実行の標準的な方法だけでなく、torch.compile 機能を使用して実行できることに注意してください。

OpenVINO ランタイムはプラグイン・アーキテクチャーを採用しています。プラグインは、特定のインテル® ハードウェア・デバイス (CPU、GPU など) で推論行う完全な実装を含むソフトウェア・コンポーネントです。各プラグインは統合 API を実装し、デバイスを構成する追加のハードウェア固有 API や、OpenVINO ランタイムとベースとなるプラグイン・バックエンド間の API 相互運用性を提供します。

以下は、トレーニングされたディープラーニング・モデルをデプロイする一般的なワークフローを示しています。

../_images/BASIC_FLOW_IE_C.svg