パフォーマンス・ベンチマーク

このページでは、代表的なパブリック・ニューラル・ネットワークとインテル® デバイスを対象とした、インテル® ディストリビューションの OpenVINO™ ツールキットOpenVINO モデルサーバーのベンチマーク結果を示しています。結果は、アプリケーションを実行するハードウェアを決定したり、ソリューションにすでに実装されているハードウェアの AI ワークロードを計画するのに役立ちます。ボタンをクリックして、選択したベンチマークのデータを参照できます。

主なパフォーマンス指標とワークロード・パラメーターの詳細については、以下のタブを参照してください。

レイテンシーのしきい値内で供給された推論数 (例えば、1 秒あたりのフレーム数 (FPS)) を測定します。ディープラーニング推論を備えたシステムを導入する場合、要件を満たす価格とパフォーマンスでレイテンシーと電力間の最適なトレードオフを実現するスループットを選択します。

スループットは重要ですが、エッジ AI の導入においてより重要なことは、パフォーマンス効率またはコストあたりのパフォーマンスです。システムコスト 1 ドルあたりのスループットにおけるアプリケーション・パフォーマンスが、価値を判断する最良の尺度です。KPI 値は “1 秒あたりの推論として測定されるスループット/推論エンジンの価格” として計算されます。これは、2 ソケットシステムの場合、CPU の 2 倍の価格が適用されることを意味します。価格はベンチマークを行った時点によるもので、ソースは以下のハードウェア・プラットフォーム (PDF) の説明のリンクとして参照できます。

システム電力は、エッジからデータセンターまでの重要な考慮事項です。ディープラーニングのソリューションを選択する場合、電力効率 (スループット/ワット) は考慮すべき重要な要素です。インテルによる設計は、ディープラーニング・ワークロードの実行において優れた電力効率を提供します。効率 KPI は、“1 秒あたりの推論数/推論エンジンの TDP として測定されるスループット” として計算されます。これは、2 ソケットシステムの場合、CPU の 2 倍の消費電力 (TDP) が適用されることを意味します。TDP 値はベンチマークを行った時点によるもので、ソースは以下のハードウェア・プラットフォーム (PDF) の説明のリンクとして参照できます。

これは推論要求の同期実行を測定してミリ秒単位で報告されます。各推論要求 (例: 前処理、推論、後処理) は、次の推論要求が開始される前に完了することが許されます。このパフォーマンス・メトリックは、単一の画像入力をできるだけ早く処理する必要があるシナリオに関連します。一例として、医療従事者が 1 枚の超音波スキャン画像の分析だけを要求するヘルスケア分野や、産業用ロボットの環境内のアクションに対する反応や自律走行車の障害物回避のようなリアルタイムまたはほぼリアルタイムのアプリケーションが挙げられます。

ワークロード・パラメーターは、ベンチマークに使用するさまざまなモデルのパフォーマンス結果に影響します。画像処理モデルには異なる画像サイズがあり、自然言語処理モデルには異なる最大トークンリスト長があります。これらすべてについては、FAQ のセクションで詳しく説明されています。すべてのモデルはバッチサイズ 1 で実行されます。以下は、表示する GenAI モデルのパラメーターです。

  • 入力トークン: 1024

  • 出力トークン: 128

  • ビームの数: 1

テキストから画像への変換:

  • 反復回数: 20

  • 画像サイズ (HxW): 256 x 256

  • 入力トークンの長さ: 1024 (GenAI モデルのトークンは英語です)

プラットフォーム、構成、方法論

テストに使用されるすべてのプラットフォームと構成のリストは、次を参照してください。

OpenVINO ベンチマークのセットアップは、OpenVINO™ とベンチマーク・アプリケーションがインストールされたを含む単一システムです。実際の推論に費やされた時間を測定し (前処理または後処理を除く)、1 秒あたりの推論 (または 1 秒あたりのフレーム数) をレポートします。

OpenVINO™ モデルサーバー (OVMS) は、インテル® ディストリビューションの OpenVINO™ ツールキット・ランタイム・ライブラリーを採用し、gRPC または HTTP/REST 上推論 API を介してモデルのセットを公開します。ベンチマーク結果は、次の構成で測定されています: 複数クライアント、単一サーバー、イーサネットで接続された 2 つのハードウェア・プラットフォーム。ネットワーク帯域幅は、プラットフォームとモデルの両方に依存します。ワークロード強度のボトルネックにならないように設定されています。この接続はパフォーマンス測定のみを目的としています。

OVMS ベンチマーク設定の詳細を参照してください。

OVMS のベンチマーク設定は、次の 4 つので構成されます。

OVMS Benchmark Setup Diagram
  • OpenVINO™ モデルサーバーは、サーバー・プラットフォーム上の Docker コンテナとして起動され、クライアントからの要求をリッスン (そして応答) します。OpenVINO™ モデルサーバーは、対応するベンチマークの OpenVINO™ ツールキット・ベンチマーク・アプリケーションと同じシステム上で実行されます。OpenVINO™ モデルサーバーによって提供されるモデルは、Docker コンテナにマウントされたローカル・ファイル・システムに配置されます。OpenVINO™ モデルサーバーのインスタンスは、専用の Docker ネットワーク上のポートを介して他のコンポーネントと通信します。

  • クライアントは、クライアント・プラットフォームと呼ばれる独立した物理マシンで実行されます。クライアントは TensorFlow* API に基づいた Python 3 プログラミング言語で実装されており、並列プロセスとして動作します。各クライアントは、新しい次の要求を送信する前に、OpenVINO™ モデルサーバーからの応答を待ちます。クライアントの役割は、応答の検証でもあります。

  • ロードバランサーは、Docker コンテナ内のクライアント・プラットフォームで動作します。HAProxy はこれに使用されます。主な役割は、クライアントから OpenVINO™ モデルサーバーに転送された要求をカウントし、レイテンシーを推定して、その情報を Prometheus サービスによって共有することです。クライアント側にロードバランサーを配置する理由は、報告されるメトリックに対する物理ネットワークの影響を含む実際のシナリオをシミュレートするためです。

  • 実行コントローラーはクライアント・プラットフォーム上で起動されます。これは、測定プロセス全体の同期、ロードバランサーからのメトリックの取得、および実行の最終レポートの出力を担当します。

自身でパフォーマンスをテスト

パフォーマンス値を取得するガイドに従って、システムのパフォーマンスを自身でテストすることもできます。

特定のアプリケーションのパフォーマンスは、インテル® デベロッパー・クラウド for the Edge を使用して仮想的に評価することもできます。これは、インテル® ハードウェアおよびインテル® ディストリビューションの OpenVINO™ ツールキットの最新バージョンにアクセスできるリモート開発環境です。これらの詳細については、ウェブサイトまたはアカウントの作成を参照してください。

法務上の注意書き

  • インテル® ディストリビューションの OpenVINO™ ツールキットのパフォーマンス結果は、2024 年 3 月 6 日時点のリリース 2024.0 に基づいています。

  • OpenVINO モデルサーバーのパフォーマンス結果は、2024 年 2 月 13 日時点のリリース 2023.3 に基づいています。

性能の測定結果はシステム構成の日付時点のテストに基づいています。また、現在公開中のすべてのセキュリティー・アップデートが適用されているとは限りません。インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。詳細については、OEM または販売店にお問い合わせいただくか、http://www.intel.co.jp/ を参照してください。

詳細は、システム構成を参照してください。絶対的なセキュリティーを提供できる製品はありません。性能は、使用状況、構成、その他の要因によって異なります。詳細については、www.intel.com/PerformanceIndex (英語) をご覧ください。コストと結果は異なる場合があります。インテルの最適化機能は、インテルのコンパイラーまたはその他のインテル製品を対象としたものであり、他社製品に同等の最適化を行えないことがあります。