モデルサーバーの機能#

効率的な LLM サービス#

最先端の最適化技術で強化された LLM を提供し、生成ワークロードで最高のパフォーマンスとリソース使用率を達成します。

Python コードの実行#

カスタム処理を実行する Python コードを作成し、モデルサーバーで提供します。データ処理やデータサイエンスなどの分野で Python モジュールの豊富な環境を活用して、C++ コードを記述することなく柔軟なソリューションを作成できます。

さらに詳しく

MediaPipe グラフの提供#

MediaPipe グラフを作成して提供します。複数のノードを構成し、それらを接続して強力なパイプラインを作成します。

さらに詳しく

モデルのパイプラインを提供#

パイプライン内の複数モデルを接続し、有向非巡回グラフ (DAG) スケジューラーを使用してデータ転送のオーバーヘッドを削減します。カスタムノードの C/C++ 動的ライブラリーを使用して、モデル推論とデータ変換を実装します。

さらに詳しく

生データを処理#

JPEG または PNG 形式でデータを送信すると、トラフィックが削減され、データの前処理がサーバーにオフロードされます。

さらに詳しく

モデルのバージョンポリシー#

モデル・リポジトリー構造により、数値バージョン・ディレクトリーの追加または削除が可能になり、サーバーはどのモデルが提供されるかを自動的に調整します。
すべてのモデル、特定のモデルまたはモデルのセット、またはモデルの最新バージョンのみ (デフォルト設定) を提供するようにモデル・バージョン・ポリシーを設定することで、どのモデルバージョンが提供されるかを制御します。

さらに詳しく

モデルの再形状#

実行時にモデルのバッチサイズ、形状、レイアウトを変更して、高スループットと低レイテンシーを実現します。

さらに詳しく

実行時にモデル構成を変更#

OpenVINO モデルサーバーは、構成ファイルの変更を定期的にチェックし、実行時に変更を適用します。これは、モデル構成を変更 (例えば、モデルが提供されるデバイスを変更する)、新しいモデルを追加、不要になったモデルを完全に削除できることを意味します。これらの変更は、サービスを中断することなく適用されます。

さらに詳しく