GPU デバイス#

GPU プラグインは、インテル® GPU (統合およびディスクリートの両方) 上のディープ・ニューラル・ネットワークを推論する OpenCL* ベースのプラグインです。GPU プラグインの詳細については、以下を参照してください:

GPU プラグインは、インテル® ディストリビューションの OpenVINO™ ツールキットの一部です。システムを構成する方法の詳細については、GPU 構成を参照してください。

デバイスの命名規則#

デバイスは GPU.X として列挙されます (X={0, 1, 2,...}) (インテル® GPU デバイスのみが考慮されます)。
システムに GPU が統合されている場合、id は常に 0 (GPU.0) になります。
他の GPU の順序は事前定義されておらず、GPU ドライバーによって異なります。
GPU は GPU.0 のエイリアスです。
システムに GPU が統合されていない場合、デバイスは 0 から列挙されます。
マルチタイル・アーキテクチャー (OpenCL* 用語で複数サブデバイス) を備えた GPU の場合、特定のタイルは GPU.X.Y として指定される場合があります。ここで、X,Y={0, 1, 2,...}, X - タイルの ID GPU デバイス、Y - 内部タイル ID を持つデバイス

使用可能なデバイスのリストと関連付けられたインデックスを出力できる Hello デバイス照会 C++ サンプルを参照してください。以下に出力例を示します (デバイス名のみにカットされています):

./hello_query_device 
Available devices: Device: CPU ...Device: GPU.0 ...Device: GPU.1

次に、デバイス名を ov::Core::compile_model() メソッドに渡し、以下で実行します:

デフォルトデバイス

Python

core = ov.Core() 
compiled_model = core.compile_model(model, "GPU")

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
auto compiled_model = core.compile_model(model, "GPU");

固有の GPU

Python

core = ov.Core() 
compiled_model = core.compile_model(model, "GPU.1")

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
auto compiled_model = core.compile_model(model, "GPU.1");

固有のファイル

Python

core = ov.Core() 
compiled_model = core.compile_model(model, "GPU.1.0")

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
auto compiled_model = core.compile_model(model, "GPU.1.0");

サポートされる推論データタイプ#

GPU プラグインは、内部プリミティブの推論精度として次のデータタイプをサポートします:

浮動小数点データタイプ:
- f32
- f16
量子化データタイプ:
- u8
- i8
- u1

各プリミティブで選択される精度は、IR の演算精度、量子化プリミティブ、および利用可能なハードウェア機能によって異なります。u1/u8/i8 データタイプは量子化された操作にのみ使用され、量子化されていない操作には自動的に選択されません。量子化モデルを取得する方法の詳細については、モデル最適化ガイドを参照してください。

GPU プリミティブの浮動小数点精度は、f16 精度で実行される圧縮 f16 OpenVINO IR 形式を除き、OpenVINO IR の操作精度に基づいて選択されます。

注

新世代のインテル® Iris® X^e および X^e MAX GPU は、i8/u8 モデルのパフォーマンスを加速します。i8/u8 精度のハードウェア・アクセラレーションは、旧世代のプラットフォームでは利用できない場合があります。その場合、モデルは IR から取得された浮動小数点精度で実行されます。u8/i8 アクセラレーションのハードウェア・サポートは、ov::device::capabilities プロパティーで照会できます。

Hello デバイス照会 C++ サンプルでは、検出されたすべてのデバイスでサポートされているデータタイプを出力できます。

サポートされるプロパティー#

プラグインは、以下にリストされるプロパティーをサポートしています。

read-write プロパティー#

すべてのパラメーターは、ov::Core::compile_model() を呼び出す前に設定するか、追加の引数として ov::Core::compile_model() に渡す必要があります。

ov::cache_dir
ov::enable_profiling
ov::hint::model_priority
ov::hint::performance_mode
ov::hint::execution_mode
ov::hint::num_requests
ov::hint::inference_precision
ov::num_streams
ov::compilation_num_threads
ov::device::id
ov::intel_gpu::hint::host_task_priority
ov::intel_gpu::hint::queue_priority
ov::intel_gpu::hint::queue_throttle
ov::intel_gpu::enable_loop_unrolling
ov::intel_gpu::disable_winograd_convolution

Read 専用プロパティー#

ov::supported_properties
ov::available_devices
ov::range_for_async_infer_requests
ov::range_for_streams
ov::optimal_batch_size
ov::max_batch_size
ov::device::full_name
ov::device::type
ov::device::gops
ov::device::capabilities
ov::intel_gpu::device_total_mem_size
ov::intel_gpu::uarch_version
ov::intel_gpu::execution_units_count
ov::intel_gpu::memory_statistics

制限事項#

GPU プラグインが内部実装を使用して CPU 上でいくつかのプリミティブを暗黙的に実行することがあり、これにより CPU 使用率が増加する可能性があります。以下はそのような操作のリストです:

Proposal
NonMaxSuppression
DetectionOutput

操作の特定のパラメーターとハードウェア構成によって動作は異なります。

重要

微調整されたモデルで作業しているときに、winograd 畳み込みが選択されていると、推論が不正確になり、GPU でのパフォーマンスが低下することがあります。この問題は、winograd 畳み込みを無効にすることで解決できます:

compiled_model = core.compile_model(ov_model, device_name=devStr1, config={ "GPU_DISABLE_WINOGRAD_CONVOLUTION": True })

GPU パフォーマンスのチェックリスト: まとめ#

OpenVINO は GPU 実装の OpenCL* カーネルに依存しているため、多くの OpenCL* ヒントが適用できます:

モデル・トランスフォーメーション API は、FP32 よりも FP16 の推論精度を優先します。最適化オプションについては、最適化ガイドを参照してください。
自動バッチ処理を使用して、個々の推論ジョブをグループ化することも有効です。
モデルのロード時間を最小限に抑えるためキャッシュを検討してください。
アプリケーションが GPU と並行して CPU 上で推論を実行する場合、またはホストに大きな負荷をかける場合は、OpenCL* ドライバーのスレッドが枯渇しないようにしてください。CPU 構成オプションを使用して、CPU プラグインの推論スレッド数を制限できます。
GPU のみのシナリオでも、GPU ドライバーは完了にスピンループによるポーリングを使用して CPU コアを占有する可能性があります。CPU 負荷が懸念される場合は、前述の queue_throttle プロパティーの利用を検討してください。このオプションでは推論レイテンシーが増加する可能性があるため、複数の GPU ストリームまたはスループットのパフォーマンス・ヒントと組み合わせることを検討してください。
メディア入力を操作する場合、GPU プラグインのリモート tensor API を考慮してください。

GPU デバイス#

デバイスの命名規則#

サポートされる推論データタイプ#

サポートされる機能#

自動デバイス選択#

自動バッチ処理#

マルチストリーム実行#

動的形状#

動的バッチ境界#

動的形状のパフォーマンスとメモリー消費に関する注意事項#

パフォーマンス向上のための推奨事項#

前処理の高速化#

モデルのキャッシュ#

拡張性#

サポートされるプロパティー#

read-write プロパティー#

Read 専用プロパティー#

制限事項#

GPU パフォーマンスのチェックリスト: まとめ#

関連情報#

GPU デバイス#

デバイスの命名規則#

サポートされる推論データタイプ#

サポートされる機能#

自動デバイス選択#

自動バッチ処理#

マルチストリーム実行#

動的形状#

動的バッチ境界#

動的形状のパフォーマンスとメモリー消費に関する注意事項#

パフォーマンス向上のための推奨事項#

前処理の高速化#

モデルのキャッシュ#

拡張性#

RemoteTensor API を介した GPU コンテキストとメモリー共有#

サポートされるプロパティー#

read-write プロパティー#

Read 専用プロパティー#

制限事項#

GPU パフォーマンスのチェックリスト: まとめ#

関連情報#