CPU デバイス#

CPU プラグインは、インテル® ディストリビューションの OpenVINO™ ツールキットの一部です。インテル® x86-64 および Arm* CPU 上でニューラル・ネットワークのハイパフォーマンス推論を実現するために開発されました。第 11 世代以降のインテル® CPU では、特に INT8 モデルでパフォーマンスが向上しています。CPU プラグインの詳細については、以下を参照してください:

注

Arm* CPU のプラグイン機能と最適化の範囲は、インテル® x86-64 とは異なる場合があります。明示的に制限が記載されていない場合、機能はすべての CPU アーキテクチャーでサポートされます。 ARM64 上の CPU 推論は Windows* ではサポートされていません。

デバイス名#

CPU デバイス名は CPU プラグインに使用されます。プラットフォーム上に複数の物理ソケットがある場合でも、OpenVINO によってリストされるデバイスは 1 つだけです。マルチソケット・プラットフォームでは、NUMA ノード間の負荷分散とメモリー使用量の分散が自動的に処理されます。推論に CPU を使用するには、デバイス名を ov::Core::compile_model() メソッドに渡す必要があります:

Python

import openvino as ov 

core = ov.Core() 
compiled_model = core.compile_model(model, "CPU")

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
auto compiled_model = core.compile_model(model, "CPU");

サポートされる推論データタイプ#

CPU プラグインは、内部プリミティブの推論精度として次のデータタイプをサポートします:

浮動小数点データタイプ:
- f32 (インテル® x86-64、Arm*)
- bf16 (インテル® x86-64)
- f16 (インテル® x86-64、Arm*)
整数データタイプ:
- i32 (インテル® x86-64、Arm*)
量子化データタイプ:
- u8 (インテル® x86-64)
- i8 (インテル® x86-64)
- u1 (インテル® x86-64)

Hello デバイス照会 C++ サンプルを使用すると、検出されたすべてのデバイスでサポートされるデータタイプを出力できます。

量子化データタイプの詳細#

各プリミティブで選択される精度は、IR の演算精度、量子化プリミティブ、および利用可能なハードウェア機能によって異なります。u1/u8/i8 データタイプは量子化された操作でのみ使用されます。つまり、量子化されていない操作には自動的に選択されません。

量子化モデルを取得する方法の詳細については、低精度最適化ガイドを参照してください。

注

Arm* プラットフォームは、シミュレーション・モードで量子化モデルを実行します。モデル全体 (量子化操作を含む) は浮動小数点精度で実行されます。

浮動小数点タイプの詳細#

CPU プラグインは、内部プリミティブの推論精度として次の浮動小数点データタイプをサポートします:

f32 (インテル® x86-64、Arm*)
bf16 (インテル® x86-64)
f16 (インテル® x86-64、Arm*)

CPU プリミティブのデフォルトの浮動小数点精度は f32 です。float16 をネイティブにサポートしていないプラットフォームで f16 OpenVINO IR をサポートするため、プラグインは内部ですべての f16 値を f32 に変換し、計算は f32 のネイティブ精度で実行されます。半精度計算 (bfloat16 または float16) をネイティブにサポートするプラットフォームでは、パフォーマンスを向上させるために、f32 の代わりに半精度型 (bf16 または f16) が自動的に使用されます (実行モードのヒントを参照)。したがって、bf16 または f16 モデルを実行するのに特別な手順は必要ありません。

重要

bf16 浮動小数点精度には、LLM モデルの推論精度に影響を与えるいくつかの制限があります。詳細はこちらの記事 (英語) を参照してください。

半開区間のを使用すると、以下のようなパフォーマンスの利点が得られます:

bfloat16 および float16 データタイプにより、第 4 世代以降のインテル® Xeon® スケーラブル・プロセッサーでインテル® アドバンスト・マトリクス・エクステンション (AMX) が有効になり、多くのディープラーニング操作実装における AVX512 または AVX2 命令と比較して、対応するハードウェアでは計算が大幅に高速化されます。
float16 データタイプにより、ARM64 CPU で armv8.2-a+fp16 拡張が有効になり、ベクトル容量が 2 倍になるためパフォーマンスが大幅に向上します。
ほとんどの重みテンソルと活性化テンソルは半精度で保存されるため、メモリー・フットプリントが削減されます。

bfloat16 形式の詳細については、 BFLOAT16 – ハードウェア数値定義ホワイトペーパーを参照してください。CPU デバイスが半精度データタイプをサポートできるかどうかを確認するには、デバイス・プロパティーのインターフェイス照会を使用して ov::device::capabilities プロパティーを照会します。このプロパティーには、CPU 機能のリストに FP16 または BF16 が含まれている必要があります:

Python

core = ov.Core() 
cpu_optimization_capabilities = core.get_property("CPU", device.capabilities)

C++

ov::Core core; 
auto cpuOptimizationCapabilities = core.get_property("CPU", 
    ov::device::capabilities);

推論精度のヒント#

モデルが半精度 (bf16 または f16) に変換されている場合、ov::hint::inference_precision は ov::element::bf16 に設定され、ov::CompiledModel::get_property 呼び出しで確認できます。次のコードは、要素タイプを取得する方法を示しています:

Python

core = ov.Core() 
compiled_model = core.compile_model(model, "CPU") 
inference_precision = core.get_property("CPU", hints.inference_precision)

C++

ov::Core core; 
auto network = core.read_model("sample.xml"); 
auto exec_network = core.compile_model(network, "CPU"); 
auto inference_precision = 
    exec_network.get_property(ov::hint::inference_precision);

ネイティブの半精度サポートを持つターゲットで、半精度 (bf16 または f16) ではなく f32 精度でモデルを推論するには、ov::hint::inference_precision を ov::element::f32 に設定します。

Python

core = ov.Core() 
core.set_property("CPU", {hints.inference_precision: ov.Type.f32})

C++

ov::Core core; 
core.set_property("CPU", ov::hint::inference_precision(ov::element::f32));

Bfloat16 ソフトウェア・シミュレーション・モードは、ネイティブ avx512_bf16 命令をサポートしないインテル® AVX-512 命令セットを搭載した CPU で使用できます。このモードは開発目的で使用されており、良好なパフォーマンスを保証するものではありません。シミュレーションを有効にするには、ov::hint::inference_precision を明示的に ov::element::bf16 に設定する必要があります。

注

ネイティブの bfloat16 サポートまたは bfloat16 シミュレーション・モードのない CPU で、ov::hint::inference_precision が ov::element::bf16 に設定されると例外がスローされます。

注

半精度データタイプ (bfloat16 または float16) の仮数サイズが縮小されるため、半精度推論の精度は、特に半精度データタイプを使用してトレーニングされていないモデルの場合、f32 推論と異なる場合があります。半精度の推論精度が許容できない場合は、f32 精度に切り替えることを推奨します。また、パフォーマンスと精度のバランスは、ov::hint::execution_mode ヒントを使用して管理できます。実行モードのヒントを参照してください。

実行モデルのヒント#

ov::hint::inference_precision が明示的に設定されていない場合、ov::hint::execution_mode ヒントを使用することで、実行時の最適化を精度とパフォーマンスのどちらかに向けることができます。ov::hint::execution_mode が ov::hint::ExecutionMode::PERFORMANCE (デフォルト) に設定され、プラットフォームが半精度計算 (bfloat16 または float16) をネイティブにサポートしている場合、より優れたパフォーマンスを実現するため f32 の代わりに bf16 または f16 タイプが自動的に使用されます。このモードの精度が十分でない場合、ov::hint::execution_mode を ov::hint::ExecutionMode::ACCURACY に設定して、プラグインが浮動小数点計算で f32 精度を使用するように強制します。

詳細とサンプルコードについては、精度の制御を参照してください。

サポートされる機能#

自動デバイス選択#

システムに CPU 以外の OpenVINO 対応デバイス (統合 GPU など) が含まれている場合、サポートされているモデルはすべてのデバイスで同時に実行できます。これは、ターゲットデバイスとして AUTO:CPU,GPU.0 を指定し、CUMULATIVE_THROUGHPUT パラメーターを追加することによって行われます。

Python

core = ov.Core() 
compiled_model = core.compile_model(model, "AUTO:CPU,GPU.0", {hints.performance_mode: hints.PerformanceMode.CUMULATIVE_THROUGHPUT})

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
auto compiled_model = core.compile_model(model, "AUTO:CPU,GPU.0", ov::hint::performance_mode(ov::hint::PerformanceMode::CUMULATIVE_THROUGHPUT));

詳細は自動バッチ処理をご覧ください。

マルチストリーム実行#

ov::num_streams(n_streams) が n_streams > 1 または ov::hint::performance_mode(ov::hint::PerformanceMode::THROUGHPUT) プロパティーが CPU プラグインで設定されている場合、モデルに対して複数のストリームが作成されます。CPU プラグインの場合、各ストリームには固有のホストスレッドがあるため、受信した推論要求を同時に処理できます。各ストリームは、NUMA ノード間のデータ転送のオーバーヘッドを最小限に抑えるため、NUMA ノードの物理メモリー使用量に対し固有の物理コアグループに固定されます。

詳細については、最適化ガイドとスレッド・スケジューリングの概要を参照してください。

注

レイテンシーに関しては、マルチソケット・プラットフォームで 1 つのストリームのみを実行すると、NUMA ノード間のデータ転送で追加のオーバーヘッドが発生する可能性があることに注意してください。その場合、ov::hint::PerformanceMode::LATENCY パフォーマンス・ヒントを使用することを推奨します。詳細は、パフォーマンスのヒントを参照してください。

動的形状#

CPU は、opset カバレッジの観点から、動的な形状を持つモデルを機能的に完全にサポートします。

注

CPU プラグインは、ランクが動的に変化するテンソルをサポートしていません。このようなテンソルを使用してモデルを推論すると、例外がスローされます。

一部の実行時の最適化は、モデルの形状が事前に判明している場合、より効果的に機能します。したがって、推論の呼び出し間で入力データの形状が変更されない場合は、静的な形状を持つモデルを使用するか、静的な入力形状で既存のモデルを再形成して最高のパフォーマンスを得ることが推奨されます。

Python

import openvino as ov 

core = ov.Core() 
model.reshape([10, 20, 30, 40])

C++

ov::Core core; 
auto model = core.read_model("model.xml"); 
ov::Shape static_shape = {10, 20, 30, 40}; 

model->reshape(static_shape);

詳細については、動的形状ガイドを参照してください。

前処理の高速化#

CPU プラグインは、前処理操作の完全なセットをサポートし、それらの前処理操作に高パフォーマンスの実装を提供します。詳細については、前処理 API ガイドを参照してください。

モデルのキャッシュ#

CPU はネットワークのインポート/エクスポート機能をサポートします。共通の OpenVINO™ ov::cache_dir プロパティーによってモデルのキャッシュが有効になっている場合、プラグインはモデルのコンパイル中に指定されたディレクトリー内にキャッシュされた BLOB を自動的に作成します。キャッシュされた BLOB には、一般的な実行時の最適化と低精度の変換が行われた、ネットワークの部分的な表現が含まれています。次のモデルがコンパイルされるとき、最初の OpenVINO IR ではなく、キャッシュされた表現がプラグインにロードされるため、変換手順はスキップされます。これらの変換はモデルのコンパイルにかなりの時間がかかるため、この表現をキャッシュすることで、その後のモデルのコンパイルにかかる時間が短縮され、その結果、最初の推論レイテンシー (FIL) が短縮されます。

詳細は、モデルのキャッシュを参照してください。

拡張性#

CPU プラグインは、プラグインにそのような操作用の実装がない場合、ov::Op リファレンス実装でのフォールバックをサポートします。つまり、OpenVINO™ 拡張メカニズムはプラグイン拡張にも使用できるということです。カスタム操作の実装でフォールバックを有効にするには、派生操作クラスの ov::Op::evaluate メソッドをオーバーライドします (詳細については、カスタム OpenVINO™操作を参照してください)。

ステートフル・モデル#

CPU プラグインは、ステートフル・モデルを制限なくサポートします。

詳細については、ステートフル・モデルのガイドをご覧ください。

サポートされるプロパティー#

プラグインは以下のプロパティーをサポートしています:

read-write プロパティー#

すべてのパラメーターは、ov::Core::compile_model() を呼び出す前に設定するか、追加の引数として ov::Core::compile_model() に渡す必要があります。

ov::enable_profiling
ov::hint::inference_precision
ov::hint::performance_mode
ov::hint::execution_mode
ov::hint::num_request
ov::hint::scheduling_core_type
ov::hint::enable_hyper_threading
ov::hint::enable_cpu_pinning
ov::num_streams
ov::affinity
ov::inference_num_threads
ov::cache_dir
ov::intel_cpu::denormals_optimization
ov::intel_cpu::sparse_weights_decompression_rate

read 専用プロパティー#

ov::supported_properties
ov::available_devices
ov::range_for_async_infer_requests
ov::range_for_streams
ov::device::full_name
ov::device::capabilities

注

ov::affinity は ov::hint::enable_cpu_pinning に置き換えられました。そのため、2024.0 リリースから非推奨となり、2025 リリースでは削除されます。

外部への依存関係#

一部のパフォーマンスが重要な DL 操作では、CPU プラグインはサードパーティーのライブラリーを使用します:

oneDNN (インテル® x86-64、Arm*)
計算ライブラリー (Arm*)

最適化ガイド#

マルチスレッドの最適化#

CPU 推論は、複数の論理プロセッサーで 1 つまたは複数の入力を並行して推論します。

詳細はスレッド・スケジュールの概要をご覧ください。

デノーマル最適化#

非正規数 (デノーマル) は、ゼロではなく、ゼロに非常に近い有限浮動小数点数です。例: (0、1.17549e-38) と (0、-1.17549e-38) の数値。このような場合、正規化数値エンコード形式には数値をエンコードする機能がないため、アンダーフローが発生します。このような数値を含む計算は、多くのハードウェアでは非常に低速になります。

非正規数はゼロに非常に近いため、非正規数を直接ゼロとして扱うことは、非正規数の計算を最適化する簡単な方法です。しかし、この最適化は IEEE 754 標準に準拠していません。これが許容できない精度の低下を引き起こす場合、この振舞いを制御するために denormals_optimization プロパティーが導入されました。ユースケースに非正規数があり、精度の低下が見られないか許容範囲内の場合は、プロパティーを True に設定してパフォーマンスを向上させます。それ以外は False に設定します。プロパティーによって明示的に設定されておらず、アプリケーションが非正規化の最適化も行わない場合、最適化はデフォルトで無効になります。denormals_optimization プロパティーを有効にすると、OpenVINO はクロスオペレーション・システム/コンパイラーを提供し、該当する場合はすべてのプラットフォームで安全な最適化を提供します。

OpenVINO が使用されるアプリケーションでも、この低レベルの非正規化最適化が実行される場合があります。OpenVINO が呼び出されるスレッドの先頭で MXCSR レジスターに FTZ (Flush-To-Zero) フラグと DAZ(Denormals-As-Zero) フラグを設定することで最適化された場合、OpenVINO は同じスレッドおよびサブスレッドでこの設定を継承するため、denormals_optimization プロパティーを設定する必要はありません。このような場合、設定の有効性と安全性についてはユーザーの責任となります。

注

denormals_optimization プロパティーは、compile_model() を呼び出す前に設定する必要があります。

アプリケーションで非正規化の最適化を有効にするには、denormals_optimization プロパティーを True に設定する必要があります:

Python

import openvino.properties.intel_cpu as intel_cpu 

core = ov.Core() 
core.set_property("CPU", intel_cpu.denormals_optimization(True)) 
compiled_model = core.compile_model(model=model, device_name=device_name)

C++

ov::Core core; // ステップ 1: ov::Core オブジェクトの作成 
core.set_property(ov::intel_cpu::denormals_optimization(true)); // ステップ 1b: デノーマル最適化を有効にする 
auto model = core.read_model(modelPath); // ステップ 2: モデルの読み込み 
//... 
// ステップ 3: 入力/出力を準備 
//...
// ステップ 4: デバイス構成を設定 
auto compiled = core.compile_model(model, device, config); // ステップ 5: LoadNetwork

スパース重みの復元 (インテル® x86-64)#

スパース重みは、ほとんどの要素がゼロである重みです。すべての要素の数に対するゼロ要素の数の比率は、スパース率と呼ばれます。したがって、スパース重みはスパース率が高い重みであると仮定します。スパース重みでは、特殊なストレージ構造を使用してゼロ値以外のみをメモリーに保存できるため、メモリーをより効率的に使用できます。これにより、メモリー要求の高いワークロード (スループット・シナリオなど) でのパフォーマンスが向上します。

スパース重みの復元機能を使用すると、モデルのコンパイル段階で行列乗算演算の重みを CPU プラグインに直接パックし、ゼロ以外の値を特別なパック形式で保存できます。その後、モデルの実行中に重みが復元され、計算カーネルで使用されます。重みはパック形式で DDR/L3 キャッシュからロードされるため、メモリー消費量が大幅に削減され、その結果推論パフォーマンスが向上します。

この機能を使用するには、インターバル [0, 1] から値を取得できる sparse_weights_decompression_rate プロパティーがユーザーに提供されます。sparse_weights_decompression_rate は、スパース率のしきい値を定義します。スパース率が高い操作のみが、スパース重み復元機能を使用して実行されます。デフォルト値は 1 で、オプションが無効であることを意味します。

注

スパース重み復元機能はデフォルトで無効になっています。これは、全体の速度向上は特定のワークロードに大きく依存し、場合によってはこの機能によりパフォーマンスの低下が生じる可能性があるためです。

sparse_weights_decompression_rate の使用方法のコード例:

Python

import openvino.properties.intel_cpu as intel_cpu 

core = ov.Core() 
core.set_property("CPU", intel_cpu.sparse_weights_decompression_rate(0.8)) 
compiled_model = core.compile_model(model=model, device_name=device_name)

C++

ov::Core core; // ステップ 1: ov::Core オブジェクトの作成 
core.set_property(ov::intel_cpu::sparse_weights_decompression_rate(0.8)); // ステップ 1b: スパース重み復元機能を有効にする 
auto model = core.read_model(modelPath); // ステップ 2: モデルの読み込み 
//... 
// ステップ 3: 入力/出力を準備 
//...
// ステップ 4: デバイス構成を設定 
auto compiled = core.compile_model(model, device, config); // ステップ 5: LoadNetwork

注

sparse_weights_decompression_rate プロパティーは、compile_model() を呼び出す前に設定する必要があります。

スパース重み復元機能が適用されたレイヤーの情報は、パフォーマンス・カウンター・ログから取得できます。“exec type” フィールドには、“sparse” パーティクルを含む実装タイプが含まれます (以下の例では “brgemm_avx512_amx_sparse_I8”)。

MatMul_1800 EXECUTED layerType: FullyConnected execType: brgemm_avx512_amx_sparse_I8 realTime (ms): 0.050000 cpuTime (ms): 0.050000

制限事項#

現在、スパース重み復元機能は、次の制限付きでサポートされています:

モデルは int8 精度に量子化する必要があります。
この機能は、行列乗算演算でのみサポートされます。
ハードウェア・ターゲットはインテル® AMX 拡張機能をサポートしている必要があります (例: 第 4 世代インテル® Xeon® プロセッサー (開発コード名 Sapphire Rapids))。
重みの入力および出力チャネルの数は 64 の倍数である必要があります。

CPU デバイス#

デバイス名#

サポートされる推論データタイプ#

量子化データタイプの詳細#

浮動小数点タイプの詳細#

推論精度のヒント#

実行モデルのヒント#

サポートされる機能#

自動デバイス選択#

マルチストリーム実行#

動的形状#

前処理の高速化#

モデルのキャッシュ#

拡張性#

ステートフル・モデル#

サポートされるプロパティー#

read-write プロパティー#

read 専用プロパティー#

外部への依存関係#

最適化ガイド#

マルチスレッドの最適化#

デノーマル最適化#

スパース重みの復元 (インテル® x86-64)#

制限事項#

関連情報#