OpenVINO™ モデルサーバー¶
モデルサーバーはモデルをホストし、標準ネットワーク・プロトコル経由でソフトウェア・コンポーネントにアクセスできるようにします。クライアントはモデルサーバーにリクエストを送信し、モデルサーバーはモデル推論を実行してクライアントに応答を返します。モデルサーバーには、モデルを効率的にデプロイする多くの利点があります。
リモート推論により、エッジまたはクラウドデプロイへの API 呼び出しを実行するのに必要な機能を備えた軽量クライアントを使用できるようになります。
アプリケーションは、モデル・フレームワーク、ハードウェア・デバイス、およびインフラストラクチャーから独立しています。
REST または gRPC 呼び出しをサポートする任意のプログラミング言語のクライアント・アプリケーションを使用して、モデルサーバー上で推論をリモートで実行できます。
クライアント・ライブラリーはほとんど変更されないため、クライアントの更新は少なくなります。
モデルのトポロジーと重みはクライアント・アプリケーションに直接公開されないため、モデルへのアクセスを制御しやすくなります。
Kubernetes や OpenShift クラスターなどのクラウド環境のマイクロサービスベースのアプリケーションおよびデプロイメントに理想的なアーキテクチャーです。
水平および垂直推論スケーリングによって効率的にリソースを利用します。
OpenVINO モデルサーバーのサービス¶
OpenVINO™ モデルサーバー (OVMS) は、モデルを提供する高性能システムです。スケーラビリティーを実現するため C++ で実装され、インテル® アーキテクチャーでのデプロイに最適化されたモデルサーバーは、推論の実行に OpenVINO を適用しながら、TensorFlow Serving および KServe と同じアーキテクチャーと API を使用します。推論サービスは gRPC または REST API を介して提供されるため、新しいアルゴリズムのデプロイや AI 実験が容易です。
サーバーで使用するモデルは、ローカルに保存するか、オブジェクト・ストレージ・サービスによってリモートでホストする必要があります。詳細については、モデル・リポジトリーの準備を参照してください。モデルサーバーは、Docker コンテナ内、ベアメタル上、および Kubernetes 環境で動作します。クイックスタート・ガイドの例を参照して OpenVINO モデルサーバーの使用を開始するか、モデルサーバーの機能を調査してください。
主な機能¶
[NEW] Python コードの実行
[NEW] gRPC ストリーミング
実行時のモデルのバージョン管理とモデルの更新を含むモデル管理
Prometheus 標準と互換性のあるメトリック
TensorFlow、PaddlePaddle、ONNX など複数のフレームワークのサポート
AI アクセラレーターのサポート