インテル® VTune™ Amplifier 2018 ヘルプ
次の図は、インテル® VTune™ Amplifier を使用したインテル® メニー・インテグレーテッド・コア (インテル® MIC) アーキテクチャー・ベースのインテル® Xeon Phi™ プロセッサー (開発コード名: Knights Landing) 上で実行されるアプリケーションの解析、またはシステム全体の解析における基本的なワークフローを示しています。セルフブート版のインテル® Xeon Phi™ プロセッサーの Linux* ターゲット上での解析がサポートされます。プロセッサー向けに事前定義された高度なホットスポット解析、メモリーアクセス解析、全般解析、HPC パフォーマンス特性解析を選択するか、カスタム解析タイプを作成して実行できます。
基本ホットスポット、並行性、ロックと待機などのインストルメント・ベースの収集では、ワーカースレッドの数が多いと大幅なオーバーヘッド生じます。アプリケーションのスケーラビリティーを調査するには、基本ホットスポットの代わりに高度なホットスポット、並行性やロックと待機の代わりに HPC パフォーマンス特性を使用してください。
必要条件:
HPC パフォーマンス特性、メモリーアクセス、全般解析、または高度なホットスポットなどのハードウェア・イベントベース・サンプリング収集タイプには、サンプリング・ドライバーをインストールすることを推奨します。サンプリングドライバーがインストールされていない場合、Linux* ではインテル® VTune™ Amplifier は Perf を使用します。次のシステム設定に留意してください。
システム全体とアンコアイベントの収集を有効にするには、メモリーアクセスと HPC パフォーマンス特性解析タイプの一部である DRAM と MCDRAM メモリー帯域幅の測定を許可します。これには、root または sudo 権限を使用して、/proc/sys/kernel/perf_event_paranoid に 0 を設定します。
>echo 0>/proc/sys/kernel/perf_event_paranoid
全般解析タイプの収集を有効にするには、オープンされるファイル・ディスクリプター数のデフォルトの上限値を増やします。root または sudo 権限で、/etc/security/limits.conf ファイルのデフォルト値を 100*<論理 CPU コア数> に変更します。
<user> hard nofile <100 * 論理 CPU コア数>
<user> soft nofile <100 * 論理 CPU コア数>
このワークフローは、解析を素早く行うため推奨される手順です。インテル® Xeon Phi™ プロセッサー上でインテル® VTune™ Amplifier は完全なデータ収集を行うことができますが、ファイナライズと可視化は低速かもしれません。インテル® Xeon Phi™ プロセッサー・ベースのターゲット上でも、通常の解析フローを利用できます。
1. |
インテル® Xeon Phi™ プロセッサーを搭載するターゲットシステムで解析の設定と実行を行う |
ターゲットシステムで解析を設定して実行するには 2 つの方法があります。
|
2. |
ホストシステムで結果を開く |
結果をホストシステムへコピーします (ターゲットシステムで収集された結果が、ホストシステムと共有されていない場合)。コマンドがファイナライズの遅延を指示している場合、結果をファイナライズします。
|
3. |
解析結果の表示と解釈 |
結果を見るには次の 2 つの方法があります。
|