gpu-hotspotsコマンドライン解析

コマンドラインから gpu-hotspots 値を使用して、GPU 計算/メディア・ホットスポット解析を起動します。

特性化解析の設定

特性化設定オプションを使用して、次のことを行います。

[特性化] ラジオボタンを選択すると、GPU メトリックのプラットフォーム固有のプリセットを選択できます。動的命令カウントのプリセットを除き、他のすべてのプリセットは、実行ユニット (EU) のアクティビティーに関する次のデータを収集します。

各プリセットでは追加のメトリックが導入されます。

GPU 計算/メディア・ホットスポット解析は、Windows* および Linux* ターゲットの特性化モードで実行できます。ただし、すべてのプリセット (動的命令カウントのプリセットを除く) で、特性化モードで GPU コ計算/メディア・ホットスポット解析を実行するにはルート/管理者権限が必要です。

あるいは、Linux* システムでは、一般ユーザーによる収集を許可するようシステムを構成できます。これを行うには、インストール・ディレクトリーの bin64 フォルダーから root 権限で prepare-debugfs-and-gpu-environment.sh スクリプトを実行します。

ソース解析の設定

ソース解析では、インテル® VTune™ プロファイラーは、GPU カーネルのメモリーアクセスによって引き起こされる、パフォーマンスが重要な基本ブロックを特定するのを支援します。

[基本ブロック・レイテンシー] または [メモリー・レイテンシー] プロファイル・モードでは、GPU 計算/メディア・ホットスポット解析は次のメトリックを使用します。

[命令数] プロファイル・モードを有効にすると、インテル® VTune™ プロファイラーはカーネルにより実行された命令の内訳を次のグループで表示します。

[制御フロー] グループ

if、else、endif、while、break、cont、call、calla、ret、goto、jmpi、brd、brc、join、halt および mov、add ip レジスターを明示的に変更する命令。

[送信 & 待機] グループ

send、sends、sendc、sendsc、wait

[Int16 & HP Float] | [Int32 & SP Float] | [Int64 & DP Float] グループ

ビット操作 (整数型のみ):and、or、xor など。

算術演算:mul、sub など。avg、frc、mac、mach、mad、madm

ベクトル算術演算:line、dp2、dp4 など。

拡張算術演算:

[その他] グループ

nop を含むほかのすべての操作。

[命令数] モードでは、インテル® VTune™ プロファイラーは、実行された命令のウェイトを合計して計算された、[1 秒あたりの操作数] メトリックも提供します。

操作 (演算) のタイプはデスティネーション・オペランドのタイプにより決定されます。

vtune -collect gpu-hotspots [-knob <knobName=knobValue>] -- <target> [target_options]

Knob:gpu-sampling-intervalprofiling-modecharacterization-modecode-level-analysiscollect-programming-apicomputing-task-of-interesttarget-gpu などがあります。

GPU 計算/メディア・ホットスポット解析で利用可能な knob (設定オプション) に関する最新情報は、

vtune -help collect gpu-hotspots コマンドで取得できます。

この例では、デフォルトの事前定義された概要 GPU ハードウェア・メトリックを使用して、デフォルトの特性化モードで gpu-hotspots 解析を実行します。

vtune -collect gpu-hotspots -knob enable-gpu-runtimes=true -- /home/test/myApplication

次にすることは ?

データの収集が完了したら、次のいずれかの方法で結果を表示します。

関連情報