OpenVINO リリースノート¶
2024.0 - 2024年3月6日¶
新機能¶
-
コード変更を最小限に抑えるための、より多くの生成 AI カバレッジとフレームワークを統合しました。
OpenVINO™ ツールキット・トークナイザーをインストールすることで、TensorFlow 文のエンコードモデルのエクスペリエンスが向上しました。
OpenVINO™ ツールキットは、パイプラインを通じてより効率良い生成モデルの処理を支援する新しいアーキテクチャーである Mixture of Experts (MoE) をサポートするようになりました。
JavaScript 開発者は、OpenVINO API にシームレスにアクセスできるようになりました。この新しいバインディングにより、JavaScript API とのスムーズな統合が可能になります。
-
新たに注目されるモデルが検証されました: Mistral、StableLM-tuned-alpha-3b、および StableLM-Epoch-3B。
-
より広範囲な大規模言語モデル (LLM) のサポートと、さらに多くのモデル圧縮技術。
一般的な技術であるアクティベーション対応重み量子化をニューラル・ネットワーク圧縮フレームワーク (NNCF) に追加することで、LLM の INT4 重み圧縮の品質が向上しました。これにより、メモリー要求が軽減され、トークンの生成が高速化されます。
内部メモリー状態の強化と KV キャッシュの INT8 精度により、インテル® CPU で強化された LLM パフォーマンスを体験してください。ChatGLM のようなマルチ照会 LLM 向けにチューニングされています。
OpenVINO™ 2024.0 リリースでは、さらに多くの OpenVINO™ 機能を Hugging Face エコシステムと統合することで、開発者の作業が軽減されました。人気のあるモデルの量子化構成を Hugging Face に直接保存し、精度とパフォーマンスを維持しながらモデルを INT4 形式に圧縮します。
-
移植性とパフォーマンスが向上し、エッジ、クラウド、またはローカルで AI を実行できます。
インテル® Core™ Ultra プロセッサーに統合されたニューラル・プロセッサー・ユニット (NPU) 向けのプレビュー・プラグイン・アーキテクチャーが、PyPI のメイン OpenVINO™ パッケージに含まれました。
ARM スレッド・ライブラリーを有効にすることで、ARM でのパフォーマンスが向上しました。さらに、マルチコア ARM プラットフォームをサポートし、MacOS* 上でデフォルトで FP16 精度が有効になりました。
マルチバッチ入力および検索拡張生成 (RAG) 用に、OpenVINO モデルサーバーからサンプルを提供する LLM が改良されました。
OpenVINO™ ランタイム¶
共通¶
CPP および Python バインド用の従来の API は削除されました。
StringTensor のサポートは、トークナイザー・オペレーターのサポートと TensorFlow Hub への準拠を改善するため、
Gather
、Reshape
、Concat
などのオペレーターによって拡張されています。-
oneDNN が v3.3 に更新されました。(oneDNN のリリースノートを参照)。
CPU デバイスプラグイン¶
-
KV キャッシュの INT8 精度などの動的量子化と内部メモリー状態の最適化により、インテルl® CPU プラットフォーム上の LLM パフォーマンスが AVX2 および AVX512 ベースのシステムで向上しました。第 13 世代および第 14 世代のインテル® Core™ プロセッサーおよびインテル® Core™ Ultra プロセッサーは、CPU の実行に AVX2 を使用しており、これらのプラットフォームでは高速化の恩恵を受けます。これらの機能を有効にするには、構成ファイルで
"DYNAMIC_QUANTIZATION_GROUP_SIZE":"32"
と"KV_CACHE_PRECISION":"u8"
を設定します。 ov::affinity
構成は現在非推奨であり、リリース 2025.0 で削除される予定です。-
以下が改善および最適化されました。
GPU デバイスプラグイン¶
-
以下が改善および最適化されました。
インテル® Core™ Ultra プロセッサー上で大きなコンテキスト・サイズの INT4 圧縮モデルを使用した際の、統合 GPU (iGPU) プラットフォームの LLM の平均トークン・レイテンシー。
iGPU での LLM ビーム探索パフォーマンス。コンテキスト・サイズが大きくなると、平均レイテンシーと最初のトークンのレイテンシーの両方が減少することが予想されます。
iGPU プラットフォームでの YOLOv5 のマルチバッチ・パフォーマンス。
LLM のメモリー使用量が最適化され、16Gb プラットフォーム上でより大きなコンテキストを備えた ‘7B’ モデルが利用可能になりました。
NPU デバイスプラグイン (プレビュー機能)¶
OpenVINO™ の NPU プラグインは、PyPI を通じて利用できるようになりました (“pip install openvino” を実行)。
OpenVINO Python API¶
.add_extension
メソッドのシグネチャーが調整され、API の動作が改善されて、ユーザー・エクスペリエンスが向上しました。
OpenVINO C API¶
ov_property_key_cache_mode (C++ ov::cache_mode) により、
optimize_size
およびoptimize_speed
モードでモデルキャッシュを設定/取得できるようになりました。Windows の VA サーフェスの例外が修正されました。
OpenVINO Node.js API¶
OpenVINO - JS バインディングは OpenVINO C++ API と一貫性があります。
新しい配布チャネルが利用可能になりました: Node Package Manager (npm) ソフトウェア・レジストリー (check the installation guide)。
Linux* 以外のプラットフォームに対する制限が緩和されたため、Windows* ユーザーも JavaScript API を利用できるようになりました。
TensorFlow フレームワークのサポート¶
-
文字列テンソルがネイティブにサポートされ、入力レイヤー、出力レイヤー、中間レイヤーで処理されるようになりました (PR #22024)。
TensorFlow Hub universal-sentence-encoder-multilingual はすぐに推論されます。
Gather
、Concat
、およびReshape
操作でサポートされる文字列テンソル。openvino-tokenizers モジュールとの統合 - openvino-tokenizers をインポートすると、トークン化モデルに必要なトランスレーターを TensorFlow フロントエンドに自動的にパッチします。
-
従来のフロントエンドへの操作によるモデル・オプティマイザーのフォールバックは利用できなくなりました。.json 構成によるフォールバックは、モデル・オプティマイザーが廃止されるまで残されます (PR #21523)。
-
次のサポートが追加されました。
HashTable*、Variable、VariableV2 などの可変変数およびリソース (PR #22270)。
新しいテンソルタイプ: tf.u16、tf.u32、および tf.u64 (PR #21864)。
-
新しい 14 個の Ops*。ここのリストを確認してください (NEW で示されています)。
TensorFlow 2.15 (PR #22180)。
-
次の問題が修正されました。
ONNX フレームワークのサポート¶
ONNX フロントエンドが OpenVINO API 2.0 を使用するようになりました。
OpenVINO™ モデルサーバー¶
OpenVINO™ ランタイム・バックエンドが 2024.0 になりました。
テキスト生成デモでは、ストリーミング・クライアントと単項クライアントを使用したマルチバッチ・サイズがサポートされるようになりました。
REST クライアントは、Python パイプライン・ノードを含むメディアパイプ・グラフに基づくサーバブルをサポートするようになりました。
関連する依存関係はセキュリティーが更新されました。
受信リクエスト (自動形状と自動バッチサイズ) に基づいて実行時にモデルを再形状する機能は非推奨であり、将来削除される予定です。代わりに、OpenVINO の動的形状モデルを使用することを推奨します。
ニューラル・ネットワーク圧縮フレームワーク (NNCF)¶
データを考慮した 4 ビットの重み圧縮のためアクティベーションを認識した重み量子化 (AWQ) アルゴリズムが利用できるようになりました。これにより、4 ビット重みの比率が高い圧縮 LLM の精度が向上します。これを有効にするには、
nncf.compress_weights()
API の専用のawq
オプション・パラメーターを使用します。ONNX モデルは、
nncf.quantize_with_accuracy_control()
メソッドを通じて、精度制御によるトレーニング後の量子化でサポートされるようになりました。OpenVINO IR および ONNX 形式のモデルに使用できます。重み圧縮のサンプル・チュートリアルが利用可能になりました。このチュートリアルでは、Hugging Face Transformers やその他の LLM から TinyLLama モデルに適切なハイパーパラメーターを見つける方法を示しています。
OpenVINO トークナイザー¶
正規表現のサポートが改善されました。
モデルカバレッジが改善されました。
トークナイザーのメタデータが rt_info に追加されました。
Tensorflow Text モデルの限定サポートが追加されました: 文字列入力を使用して TF Hub の MUSE を変換します。
-
OpenVINO トークナイザーには独自のリポジトリーがあります: /openvino_tokenizers。
その他の変更と既知の問題¶
Jupyter ノートブック¶
次のノートブックが更新または新しく追加されました。
LLM チャットボットと LLM RAG パイプラインは、新しいモデルと統合されました: minicpm-2b-dpo、gemma-7b-it、qwen1.5-7b-chat、baichuan2-7b-chat。
既知の問題¶
非推奨とサポート¶
非推奨の機能やコンポーネントを使用することはお勧めできません。これらは新しいソリューションへのスムーズな移行を可能にするために利用可能ですが、将来的には廃止される予定です。廃止された機能を引き続き使用するには、それらをサポートする最後の LTS OpenVINO バージョンに戻す必要があります。詳細については、OpenVINO の従来の機能とコンポーネントのページを参照してください。
2024.0 で廃止¶
-
ランタイム・コンポーネント:
インテル® ガウス & ニューラル・アクセラレーター (インテル® GNA)。インテル® Core™ Ultra や第 14 世代以降の低電力システムでは、ニューラル・プロセシング・ユニット (NPU) の使用を検討してください。
OpenVINO C++/C/Python 1.0 API (2023.3 API 移行ガイドを参照)
All ONNX フロントエンドの従来の API (ONNX_IMPORTER_API)
PerfomanceMode.UNDEFINED
OpenVINO Python API の一部としてのプロパティー
-
ツール:
トレーニング後の最適化ツール (POT)。代わりにニューラル・ネットワーク圧縮フレームワーク (NNCF) を使用する必要があります。
-
huggingface/transformers と NNCF を統合する Git パッチ。推奨されるアプローチは、huggingface/optimum-intel を使用して、Hugging Face のモデルに NNCF 最適化を適用することです。
Apache MXNet、Caffe、Kaldi モデル形式のサポート。ONNX への変換が解決策として使用される可能性があります。
非推奨となり将来削除される予定¶
OpenVINO™ 開発ツールパッケージ (pip install openvino-dev) は、OpenVINO 2025.0 以降、インストール・オプションおよび配布チャネルから削除されます。
モデル・オプティマイザーは OpenVINO 2025.0 で廃止されます。代わりに新しい変換方法を使用することを検討してください。詳細については、モデル変換移行ガイドを参照してください。
-
OpenVINO プロパティーのアフィニティー API は OpenVINO 2025.0 で廃止されます。これは、CPU バインド設定 (
ov::hint::enable_cpu_pinning
) に置き換えられます。 -
OpenVINO モデルサーバーのコンポーネント:
受信リクエスト (自動形状と自動バッチサイズ) に基づいて実行時にモデルを再形状する機能は非推奨であり、将来削除される予定です。代わりに、OpenVINO の動的形状モデルを使用することを推奨します。
法務上の注意書き¶
本資料に記載されているインテル製品に関する侵害行為または法的調査に関連して、本資料を使用または使用を促すことはできません。
本資料を使用することにより、お客様は、インテルに対し、本資料で開示された内容を含む特許クレームで、その後に作成したものについて、非独占的かつロイヤルティー無料の実施権を許諾することに同意することになります。
本資料は、(明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず) いかなる知的財産権のライセンスも許諾するものではありません。
本資料に含まれる情報は予告なく変更されることがあります。最新の予測、スケジュール、仕様、ロードマップについては、インテルの担当者までお問い合わせください。
本資料で説明されている製品には、不具合が含まれている可能性があり、公表されている仕様とは異なる動作をする場合があります。現在確認済みのエラッタについては、インテルまでお問い合わせください。
インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。詳細については、OEM または販売店にお問い合わせいただくか、http://www.intel.co.jp/ を参照してください。
コンピューター・システムを完全にセキュアにすることはできません。
Intel、インテル、Intel ロゴ、およびその他のインテルマークは、アメリカ合衆国およびその他の国における Intel Corporation またはその子会社の商標です。
OpenCL および OpenCL ロゴは、Apple Inc. の商標であり、Khronos の使用許諾を受けて使用しています。
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Copyright © 2023, Intel Corporation.無断での引用、転載を禁じます。
コンパイラーの最適化に関する詳細は、最適化に関する注意事項を参照してください。
性能は、使用状況、構成、その他の要因によって異なります。詳細については、www.Intel.com/PerformanceIndex (英語) をご覧ください。