モデルサーバーの機能#
効率的な LLM サービス#
最先端の最適化技術で強化された LLM を提供し、生成ワークロードで最高のパフォーマンスとリソース使用率を達成します。
Python コードの実行#
カスタム処理を実行する Python コードを作成し、モデルサーバーで提供します。データ処理やデータサイエンスなどの分野で Python モジュールの豊富な環境を活用して、C++ コードを記述することなく柔軟なソリューションを作成できます。
MediaPipe グラフの提供#
MediaPipe グラフを作成して提供します。複数のノードを構成し、それらを接続して強力なパイプラインを作成します。
モデルのパイプラインを提供#
パイプライン内の複数モデルを接続し、有向非巡回グラフ (DAG) スケジューラーを使用してデータ転送のオーバーヘッドを削減します。カスタムノードの C/C++ 動的ライブラリーを使用して、モデル推論とデータ変換を実装します。
生データを処理#
JPEG または PNG 形式でデータを送信すると、トラフィックが削減され、データの前処理がサーバーにオフロードされます。
モデルのバージョンポリシー#
モデル・リポジトリー構造により、数値バージョン・ディレクトリーの追加または削除が可能になり、サーバーはどのモデルが提供されるかを自動的に調整します。
すべてのモデル、特定のモデルまたはモデルのセット、またはモデルの最新バージョンのみ (デフォルト設定) を提供するようにモデル・バージョン・ポリシーを設定することで、どのモデルバージョンが提供されるかを制御します。
モデルの再形状#
実行時にモデルのバッチサイズ、形状、レイアウトを変更して、高スループットと低レイテンシーを実現します。
実行時にモデル構成を変更#
OpenVINO モデルサーバーは、構成ファイルの変更を定期的にチェックし、実行時に変更を適用します。これは、モデル構成を変更 (例えば、モデルが提供されるデバイスを変更する)、新しいモデルを追加、不要になったモデルを完全に削除できることを意味します。これらの変更は、サービスを中断することなく適用されます。
ステートフル・モデルの動作#
データのシーケンスを操作し、推論要求間でその状態を維持するモデルを提供します。
メトリック#
Prometheus と互換性のあるメトリックのエンドポイントを使用して、パフォーマンスと使用率の統計にアクセスします。
動的入力を有効にする#
可変のバッチサイズと入力形状データを受け入れるようにサービングモデルを構成します。
モデルサーバー C API#
モデルサーバーを介したプロセス推論を使用して、アプリケーション内で OpenVINO モデルサーバーのモデル管理およびモデル・パイプライン機能を活用します。これにより、既存の OVMS 機能を再利用して、ネットワーク・オーバーヘッドなしで推論をローカルで実行できます。
高度な機能#
CPU 拡張機能、モデルキャッシュ機能、またはカスタム・モデル・ローダーを使用します。