スキップしてメインのコンテンツへ

Ctrl+K

サイト・ナビゲーション

インストール
ブログ
フォーラム
サポート
パフォーマンス・ベンチマーク
GitHub

GitHub

英語日本語

サイト・ナビゲーション

インストール
ブログ
フォーラム
サポート
パフォーマンス・ベンチマーク
GitHub

GitHub

英語日本語

セクション・ナビゲーション

はじめに
OpenVINO を学ぶ
OpenVINO ワークフロー
ドキュメント
OpenVINO について

OpenVINO ワークフロー
OpenVINO™ による推論の実行
推論の最適化

推論の最適化#

ランタイムまたはデプロイメントの最適化では、推論と実行パラメーターの調整に重点が置かれます。モデルレベルの最適化とは異なり、使用するハードウェアと達成しようとする目標に特化しています。精度とパフォーマンス、スループットとレイテンシーのどちらを優先するか、あるいはバランスを目指すか計画する必要があります。また、アプリケーションがどの程度スケーラブルである必要があるか、また推論コンポーネントとどのように連携するかも予測する必要があります。そうすることで、製品は最良の結果を達成できるようになります。

注

このトピックの詳細については、以下を参照してください:

推論デバイスとモード
OpenVINO による入力の前処理
非同期 API
‘get_tensor’ イディオム
可変サイズの入力の場合は、動的形状を考慮

パフォーマンス・ポータブル推論#

構成を容易にし、パフォーマンスの最適化を移植可能にするため、OpenVINO はパフォーマンスのヒント機能を提供します。これは、レイテンシー (デフォルト) またはスループットに重点を置いた 2 つの高レベルの “プリセット” で構成されています。

OpenVINO ランタイムで実行される推論は、多くの低レベルのパフォーマンス設定で構成できますが、次の理由から推奨されません:

デバイスのアーキテクチャーと推論エンジンに関する十分な理解が必要です。
他のデバイスとモデルの組み合わせにはうまく適合しない可能性があります。次に例を示します:
- CPU と GPU では最適なストリーム数を異なる方法で推測します。
- 同じタイプの異なるデバイスでは、異なる実行構成が優先されます。
- モデルが異なれば、最適なパラメーター構成も異なります (計算とメモリー帯域幅、推論精度、可能なモデルの量子化)。
- 実行の “スケジュール” はパフォーマンスに大きな影響を与え、デバイスに大きく依存します。GPU 指向の最適化は、必ずしも CPU に適切に対応するとは限りません。

関連情報#

非同期 API を使用し、複数の推論要求を並行して実行しスループットを活用
特定のデバイスに対するスループット・アプローチの実装詳細
スループットの詳細
レイテンシーの詳細
API の例と詳細

このページ

パフォーマンス・ポータブル推論
関連情報

GitHub で編集

©2024 Intel Corporation.
Intel、インテル、Intel ロゴ、その他のインテルの名称やロゴは、Intel Corporation またはその子会社の商標です。
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。