モデルサーバーのパラメーター#

モデル構成オプション#

オプション	値形式	説明
`"model_name"/"name"`	`string`	gRPC および REST API 経由で公開されるモデル名。(コマンドラインで `model_name` を使用し、json 構成で `name` を使用します)
`"model_path"/"base_path"`	`string`	Google Cloud ストレージ、Azure ストレージ、または S3 パスを使用している場合は、クラウド・ストレージ・ガイドを参照してください。パスは次のようになります: `"/opt/ml/models/model"` `"gs://bucket/models/model"` `"s3://bucket/models/model"` `"azure://bucket/models/model"` このパスは、config.json がある場所からの相対パスにすることもできます。 (コマンドラインでは `model_path` を使用し、json 構成では `base_path` を使用します)
`"shape"`	`tuple/json/"auto"`	`shape` はオプションであり、`batch_size` よりも優先されます。`shape` 引数は、パラメーターに適合するようにモデルサーバーで有効なモデルを変更します。`shape` は、次の 3 つの形式の値を受け入れます。 `auto` - モデルサーバーは、入力データ行列と一致する形状でモデルをリロードします。 `(1,3,224,224)` などのタプル - このタプルは、単一入力を持つモデルに対するすべての受信要求に使用する形状を定義します。 `{"input1":"(1,3,224,224)","input2":"(1,3,50,50)", "input3":"auto"}` などの形状の辞書 - このオプションは、モデルに含まれるすべての入力の形状を定義します。一部のモデルでは再形状操作はサポートされていません。モデルを再形成できない場合、モデルは元のパラメーターであり、互換性のない入力形式を持つ要求はエラーになります。特定のエラーの詳細については、ログを参照してください。すべての制限を含む、サポートされるモデル・グラフ・レイヤーの詳細については、形状推論ドキュメントを参照してください。
`"batch_size"`	`integer/"auto"`	オプションです。デフォルトでは、バッチサイズは、OpenVINO モデル・オプティマイザーを通じて定義されたモデルから派生します。`batch_size` は、同じバッチサイズの順次推論要求に役立ちます。オブジェクト検出などの一部のモデルは、`batch_size` パラメーターでは正しく機能しません。これらのモデルでは、出力の最初の次元はバッチサイズを表しません。これらのモデルのバッチサイズは、ネットワークの再形成を使用し、`shape` パラメーターを適切に設定できます。モデル・オプティマイザーを使用してバッチサイズを決定するデフォルトオプションでは、サイズの最初の入力の最初の次元のサイズが使用されます。例えば、入力形状が `(1, 3, 225, 225)` の場合、バッチサイズは `1` に設定されます。`batch_size` を数値に設定すると、サービスの開始時にモデルのバッチサイズが変更されます。`batch_size` は `auto` 値も受け入れます。`auto` を使用する場合、提供されるモデルのバッチサイズは、実行時の受信データに従って設定されます。モデルは、入力データによってバッチサイズが変更されるたびにリロードされます。最初の要求では応答が遅れる場合があります。
`"layout"`	`json/string`	`layout` は、モデルの入力テンソルと出力テンソルのレイアウトを定義または変更するオプションの引数です。レイアウトを変更する (転置ステップを追加する) 場合は、`<target layout>:<source layout>` を指定します。例: `NHWC:NCHW` は、モデルが `NCHW` レイアウトにあるときに、ユーザーが入力データを `NHWC` レイアウトで送信することを意味します。コロン区切り文字なしで指定すると、転置は追加されませんが、バッチ次元を決定できます。例えば、`--layout CN` は、予測サービスが 2 番目の次元をバッチサイズとして扱うようにします。モデルに複数の入力がある場合、または出力レイアウトを変更する必要がある場合は、json 形式を使用します。`{"input1":"NHWC:NCHW","input2":"HWN:NHW","output1":"CN:NC"}` のようにマッピングを設定します。指定しない場合、レイアウトはモデルから継承されます。さらに詳しく
`"model_version_policy"`	`json/string`	オプションです。モデルバージョンのポリシーを使用すると、OpenVINO モデルサーバーが提供するモデルのバージョンを決定できます。デフォルトでは、サーバーは最新バージョンを提供します。この引数を使用する理由の 1 つは、サーバーのメモリー消費を制御することです。受け入れられる形式は json または文字列です。例: `{"latest": { "num_versions":2 }` `{"specific": { "versions":[1, 3] } }` `{"all": {} }`
`"plugin_config"`	`json/string`	デバイス・プラグイン・パラメーターのリスト。完全なリストについては、OpenVINO のドキュメントとパフォーマンス・チューニング・ガイドを参照してください。例: `{"PERFORMANCE_HINT": "LATENCY"}`
`"nireq"`	`integer`	内部要求キューのサイズ。0 に設定するか、値を設定しない場合、値は利用可能なリソースに基づいて自動的に計算されます。
`"target_device"`	`string`	推論操作の実行に使用されるデバイス名。受け入れられる値は次のとおりです: `"CPU"/"GPU"/"MULTI"/"HETERO"`
`"stateful"`	`bool`	true に設定すると、モデルはステートフルとしてロードされます。
`"idle_sequence_cleanup"`	`bool`	true に設定すると、モデルは定期的なシーケンス・クリーナー・スキャンの対象になります。アイドルシーケンスのクリーンアップを参照してください。
`"max_sequence_number"`	`uint32`	モデルのインスタンスによって同時に処理できるシーケンスの数を決定します。
`"low_latency_transformation"`	`bool`	true に設定すると、モデルサーバーはモデルの読み込み時に低レイテンシーの変換を適用します。
`"metrics_enable"`	`bool`	rest_port でメトリックのエンドポイントを有効にするフラグ。
`"metrics_list"`	`string`	カンマで区切られたメトリックのリスト。設定しない場合、デフォルトのメトリックのみが有効になります。

注: config_path を指定することと、CLI にモデル・パラメーターを入力するのは (複数のモデルを提供) 相互に排他的です。

オプション	値形式	説明
`config_path`	`string`	json 設定ファイルへの絶対パス

サーバー構成オプション#

サーバーの構成オプションはコマンドライン・オプションを介してのみ定義され、提供されるすべてのモデルに共通の構成を決定します。

オプション	値形式	説明
`port`	`integer`	gRPC サーバーによって使用されるポートの番号。
`rest_port`	`integer`	HTTP サーバーが使用するポートの番号 (指定しない場合、または 0 に設定した場合、HTTP サーバーは起動されません)。
`grpc_bind_address`	`string`	gRPC サーバーがバインドするネットワーク・インターフェイス・アドレスまたはホスト名。デフォルト: すべてのインターフェイス: 0.0.0.0
`rest_bind_address`	`string`	REST サーバーがバインドするネットワーク・インターフェイス・アドレスまたはホスト名。デフォルト: すべてのインターフェイス: 0.0.0.0
`grpc_workers`	`integer`	gRPC サーバー・インスタンスの数 (1 から CPU コア数まで)。デフォルト値は 1 で、ほとんどの使用例に最適です。高い負荷が予想される場合は、高い値を設定することを検討してください。
`rest_workers`	`integer`	HTTP サーバーのスレッドの数。`rest_port` が > 0 の場合に有効です。デフォルト値は CPU 数に基づいて設定されます。
`file_system_poll_wait_seconds`	`integer`	構成バージョンとモデルバージョンの変更を検出する時間間隔 (秒単位)。デフォルト値は 1 です。値をゼロにすると、変更の監視は無効になります。
`sequence_cleaner_poll_wait_minutes`	`integer`	次のシーケンス・クリーナー・スキャンの時間間隔 (分単位)。アイドルシーケンスのクリーンアップの対象となっており、最後のスキャン以降非アクティブなモデルのシーケンスは削除されます。値をゼロにすると、シーケンスクリーナーは無効になります。アイドルシーケンスのクリーンアップを参照してください。また、ヒープから空きメモリーを解放するスケジュールも設定します。
`custom_node_resources_cleaner_interval_seconds`	`integer`	2 つの連続するリソースのクリーンアップ・スキャンの時間間隔 (秒単位)。デフォルトは 1 です。0 より大きくなければなりません。カスタムノードの開発を参照してください。
`cpu_extension`	`string`	カスタムレイヤーが実装されたライブラリーへのオプションのパス。
`log_level`	`"DEBUG"/"INFO"/"ERROR"`	サービスのログレベル
`log_path`	`string`	ログファイルへのオプションのパス。
`cache_dir`	`string`	モデルのキャッシュストレージへのパス。このパラメーターが定義されている、またはデフォルトのパス /opt/cache が存在する場合、キャッシュが有効になります。
`grpc_channel_arguments`	`string`	grpc サーバーに渡される引数のカンマ区切りのリスト。(例: grpc.max_connection_age_ms=2000)
`grpc_max_threads`	`string`	grpc サーバーが使用できるスレッドの最大数。デフォルト値は CPU の数によって異なります。
`grpc_memory_quota`	`string`	GRPC サーバーのバッファーメモリー割り当て。デフォルト値は 2,147,483,648 (2GB) に設定されています。
`help`	`NA`	ヘルプメッセージを表示して終了します
`version`	`NA`	バイナリーのバージョンを表示します