モデルサーバーのパラメーター

モデル構成オプション

オプション

値形式

説明

"model_name"/"name"

string

gRPC および REST API 経由で公開されるモデル名 (コマンドラインで model_name を使用し、json 構成で name を使用します)。

"model_path"/"base_path"

string

Google Cloud ストレージ、Azure ストレージ、または S3 パスを使用している場合は、クラウド・ストレージ・ガイドを参照してください。パスは次のようになります。
"/opt/ml/models/model"
"gs://bucket/models/model"
"s3://bucket/models/model"
"azure://bucket/models/model"
このパスは、config.json がある場所からの相対パスにすることもできます (コマンドラインでは model_path を使用し、json 構成では base_path を使用します)。

"shape"

tuple/json/"auto"

shape はオプションであり、batch_size よりも優先されます。shape 引数は、パラメーターに適合するようにモデルサーバーで有効なモデルを変更します。shape は、次の 3 つの形式の値を受け入れます。

  • auto - モデルサーバーは、入力データ行列と一致する形状でモデルをリロードします。
  • (1,3,224,224) などのタプル - このタプルは、単一入力を持つモデルに対するすべての受信要求に使用する形状を定義します。
  • {"input1":"(1,3,224,224)","input2":"(1,3,50,50)", "input3":"auto"} などの形状の辞書 - このオプションは、モデルに含まれるすべての入力の形状を定義します。
  • 一部のモデルでは再形状操作はサポートされていません。モデルを再形成できない場合、モデルは元のパラメーターであり、互換性のない入力形式を持つ要求はエラーになります。特定のエラーの詳細については、ログを参照してください。すべての制限を含む、サポートされるモデル・グラフ・レイヤーの詳細については、形状推論ドキュメントを参照してください。

"batch_size"

integer/"auto"

オプションです。デフォルトでは、バッチサイズは、OpenVINO モデル・オプティマイザーを通じて定義されたモデルから派生します。batch_size は、同じバッチサイズの順次推論要求に役立ちます。オブジェクト検出などの一部のモデルは、batch_size パラメーターでは正しく機能しません。これらのモデルでは、出力の最初の次元はバッチサイズを表しません。これらのモデルのバッチサイズは、ネットワークの再形成を使用し、shape パラメーターを適切に設定できます。モデル・オプティマイザーを使用してバッチサイズを決定するデフォルトオプションでは、サイズの最初の入力の最初の次元のサイズが使用されます。例えば、入力形状が (1, 3, 225, 225) の場合、バッチサイズは 1 に設定されます。batch_size を数値に設定すると、サービスの開始時にモデルのバッチサイズが変更されます。batch_sizeauto 値も受け入れます。auto を使用する場合、提供されるモデルのバッチサイズは、実行時の受信データに従って設定されます。モデルは、入力データによってバッチサイズが変更されるたびにリロードされます。最初の要求では応答が遅れる場合があります。

"layout"

json/string

layout は、モデルの入力テンソルと出力テンソルのレイアウトを定義または変更するオプションの引数です。レイアウトを変更する (転置ステップを追加する) 場合は、<target layout>:<source layout> を指定します。例: NHWC:NCHW は、モデルが NCHW レイアウトにあるときに、ユーザーが入力データを NHWC レイアウトで送信することを意味します。

コロン区切り文字なしで指定すると、転置は追加されませんが、バッチ次元を決定できます。例えば、--layout CN は、予測サービスが 2 番目の次元をバッチサイズとして扱うようにします。

モデルに複数の入力がある場合、または出力レイアウトを変更する必要がある場合は、json 形式を使用します。{"input1":"NHWC:NCHW","input2":"HWN:NHW","output1":"CN:NC"} のようにマッピングを設定します。

指定しない場合、レイアウトはモデルから継承されます。

"model_version_policy"

json/string

オプションです。モデルバージョンのポリシーを使用すると、OpenVINO モデルサーバーが提供するモデルのバージョンを決定できます。デフォルトでは、サーバーは最新バージョンを提供します。この引数を使用する理由の 1 つは、サーバーのメモリー消費を制御することです。受け入れられる形式は json または文字列です。
例:
{"latest": { "num_versions":2 }
{"specific": { "versions":[1, 3] } }
{"all": {} }

"plugin_config"

json/string

デバイス・プラグイン・パラメーターのリスト。完全なリストについては、OpenVINO のドキュメントパフォーマンス・チューニング・ガイドを参照してください。
例:
{"PERFORMANCE_HINT": "LATENCY"}

"nireq"

integer

内部要求キューのサイズ。0 に設定するか、値を設定しない場合、値は利用可能なリソースに基づいて自動的に計算されます。

"target_device"

string

推論操作の実行に使用されるデバイス名。受け入れられる値は次のとおりです: "CPU"/"GPU"/"MULTI"/"HETERO"

"stateful"

bool

true に設定すると、モデルはステートフルとしてロードされます。

"idle_sequence_cleanup"

bool

true に設定すると、モデルは定期的なシーケンス・クリーナー・スキャンの対象になります。アイドルシーケンスのクリーンアップを参照してください。

"max_sequence_number"

uint32

モデルのインスタンスによって同時に処理できるシーケンスの数を決定します。

"low_latency_transformation"

bool

true に設定すると、モデルサーバーはモデルの読み込み時に低レイテンシーの変換を適用します。

"metrics_enable"

bool

rest_port でメトリックのエンドポイントを有効にするフラグ。

"metrics_list"

string

カンマで区切られたメトリックのリスト設定しない場合、デフォルトのメトリックのみが有効になります。

注: : config_path を指定することと、CLI にモデル・パラメーターを入力することは相互に排他的です (複数のモデルを提供)。

オプション

値形式

説明

config_path

string

json 設定ファイルへの絶対パス。

サーバー構成オプション

サーバーの構成オプションはコマンドライン・オプションを介してのみ定義され、提供されるすべてのモデルに共通の構成を決定します。

オプション

値形式

説明

port

integer

gRPC サーバーによって使用されるポートの番号。

rest_port

integer

HTTP サーバーが使用するポートの番号 (指定しない場合、または 0 に設定した場合、HTTP サーバーは起動されません)。

grpc_bind_address

string

gRPC サーバーがバインドするネットワーク・インターフェイス・アドレスまたはホスト名。
デフォルト: すべてのインターフェイス: 0.0.0.0

rest_bind_address

string

REST サーバーがバインドするネットワーク・インターフェイス・アドレスまたはホスト名。
デフォルト: すべてのインターフェイス: 0.0.0.0

grpc_workers

integer

gRPC サーバー・インスタンスの数 (1 から CPU コア数まで)。
デフォルト値は 1 で、ほとんどの使用例に最適です。高い負荷が予想される場合は、高い値を設定することを検討してください。

rest_workers

integer

HTTP サーバーのスレッドの数。rest_port が > 0 の場合に有効です。
デフォルト値は CPU 数に基づいて設定されます。

file_system_poll_wait_seconds

integer

構成バージョンとモデルバージョンの変更を検出する時間間隔 (秒単位)。
デフォルト値は 1 です。値をゼロにすると、変更の監視は無効になります。

sequence_cleaner_poll_wait_minutes

integer

次のシーケンス・クリーナー・スキャンの時間間隔 (分単位)。アイドルシーケンスのクリーンアップの対象となっており、最後のスキャン以降非アクティブなモデルのシーケンスは削除されます。値をゼロにすると、シーケンスクリーナーは無効になります。アイドルシーケンスのクリーンアップを参照してください。また、ヒープから空きメモリーを解放するスケジュールも設定します。

custom_node_resources_cleaner_interval_seconds

integer

2 つの連続するリソースのクリーンアップ・スキャンの時間間隔 (秒単位)。
デフォルトは 1 です。0 より大きくなければなりません。カスタムノードの開発を参照してください。

cpu_extension

string

カスタムレイヤーが実装されたライブラリーへのオプションのパス。

log_level

"DEBUG"/"INFO"/"ERROR"

サービスのログレベル

log_path

string

ログファイルへのオプションのパス。

cache_dir

string

モデルのキャッシュストレージへのパス。このパラメーターが定義されている、またはデフォルトのパス /opt/cache が存在する場合、キャッシュが有効になります。

grpc_channel_arguments

string

grpc サーバーに渡される引数のカンマ区切りのリスト。
例: grpc.max_connection_age_ms=2000

grpc_max_threads

string

grpc サーバーが使用できるスレッドの最大数。
デフォルト値は CPU の数によって異なります。

grpc_memory_quota

string

grpc サーバーのバッファーメモリー割り当て上限。
デフォルト値は 2,147,483,648 (2GB) に設定されています。

help

NA

ヘルプメッセージを表示して終了します

version

NA

バイナリーのバージョンを表示します