アダプター¶
アダプターは、生のネットワーク推論出力を、その後のポストプロセッサーのワークやメトリックの計算に適した表現形式に変換するクラスです。アダプターは、構成に使用できるパラメーターを持つ場合があります。アダプターとパラメーターは、必要に応じて構成ファイルを通じて設定されます。
設定ファイルにアダプターを設定する方法の説明¶
各ランチャーが特定のアダプターを使用するように、構成ファイルの launchers
セクションでアダプターを指定できます。
トポロジーのアダプターを設定するには 2 つの方法があります。
文字列としてアダプターを定義。
adapter: classification
アダプター名を設定するため
type:
を使用して、アダプターを辞書として定義します。このアプローチにより、必要に応じてアダプターの追加パラメーターを設定することができます。
adapter:
type: reid
grn_workaround: False
サポートされるアダプター¶
AccuracyChecker は、次のアダプターのセットをサポートします。
-
classification
- 分類モデルの出力をClassificationPrediction
表現に変換します。argmax_output
- モデル出力が ArgMax レイヤーであることを示す識別子。block
- バッチ全体を単一のデータブロックとして処理します。classification_output
- ターゲット出力レイヤー名。fixed_output
-block
モードでは、全レイヤー出力の一部からデータを収集できます。fixed_output_index
- データを収集するレイヤー出力配列へのインデックスlabel_as_array
- ClassificationPrediction のラベルを配列として生成します
-
segmentation
- セマンティック・セグメント化モデルの出力をSeegmentationPrediction
表現に変換します。make_argmax
- argmax 演算を出力値に適用できます。
-
segmentation_one_class
- セマンティック・セグメント化モデルの出力をSeegmentationPrediction
表現に変換します。モデルの出力が各ピクセルが前景クラスに属する確率である場合に適しています。threshold
- 有効なクラスに属する確率の最小しきい値。
-
anomaly_segmentation
- 異常セグメント化モデルの出力をAnomalySeegmentationPrediction
表現に変換します。threshold
- 有効なクラスに属する確率の最小しきい値。
tiny_yolo_v1
- Tiny YOLO v1 モデルの出力をDetectionPrediction
表現に変換します。-
reid
- 再識別モデルの出力をReIdentificationPrediction
表現に変換します。grn_workaround
- グローバル領域正規化レイヤーを追加して出力の処理を有効にします (オプション、デフォルトはTrue
)。joining_method
- 埋め込みを結合するために使用されるメソッド (オプション、サポートされているメソッドはsum
とconcatenation
、デフォルトはsum
です)。target_out
- ターゲット出力レイヤー名 (オプション、モデルで最初に指定しない場合は使用されます)。keep_shape
- 予測された埋め込みの初期形状を維持できるようにします (オプション、デフォルトはFalse
、モデル出力が平坦化されることを意味します)。
-
yolo_v2
- YOLO v2 ファミリーモデルの出力をDetectionPrediction
表現に変換します。classes
- 検出クラスの数 (デフォルトは 20)。-
anchors
- カンマで区切ったリストまたは事前計算された次のいずれかとして提供されるアンカー値:yolo_v2
-[1.3221, 1.73145, 3.19275, 4.00944, 5.05587, 8.09892, 9.47112, 4.84053, 11.2364, 10.0071]
。tiny_yolo_v2
-[1.08, 1.19, 3.42, 4.41, 6.63, 11.38, 9.42, 5.11, 16.62, 10.52]
coords
- bbox 座標の数 (デフォルトは 4)。num
- DarkNet 設定ファイルの num パラメーター (デフォルトは 5)。cells
- 幅と高さのセルの数 (デフォルトは 13)。raw_output
- 生の YOLO 出力形式の追加の前処理を有効にします (デフォルトはFalse
)。-
output_format
- 出力レイヤー形式の設定:BHW
- ボックスが最初 (デフォルト、生成された IR のデフォルトでもあります)。-
HWB
- ボックスが最後。ネットワーク出力が 3D (バッチ付きの 4D) テンソルではない場合にのみ適用されます。
-
yolo_v3
- YOLO v3 ファミリーモデルの出力をDetectionPrediction
表現に変換します。classes
- 検出クラスの数 (デフォルトは 80)。-
anchors
- アンカー値はカンマで区切ったリストとして提供されるか、事前に計算されます。yolo_v3
-[10.0, 13.0, 16.0, 30.0, 33.0, 23.0, 30.0, 61.0, 62.0, 45.0, 59.0, 119.0, 116.0, 90.0, 156.0, 198.0, 373.0, 326.0]
tiny_yolo_v3
-[10.0, 14.0, 23.0, 27.0, 37.0, 58.0, 81.0, 82.0, 135.0, 169.0, 344.0, 319.0]
coords
- bbox 座標の数 (デフォルトは 4)。num
- DarkNet 設定ファイルの num パラメーター (デフォルトは 3)。anchor_mask
- 出力レイヤーで使用されるアンカーのマスク (オプション、指定されていない場合は、アンカーを選択するデフォルトの方法が使用されます)。threshold
- 検出の有効な最小オブジェクトネス・スコア値 (デフォルトは 0.001)。outputs
- 出力レイヤー名のリスト。raw_output
- 生の YOLO 出力形式の追加の前処理を有効にします (デフォルトはFalse
)。output_format
- 出力レイヤー形式の設定 - 最初のボックス (BHW
) (デフォルト、生成された IR のデフォルト)、最後のボックス (HWB
)。ネットワーク出力が 3D (バッチ付きの 4D) テンソルではない場合にのみ適用されます。cells
-outputs
に従って、各レイヤーのグリッドサイズを設定します。do_reshape=True
の場合、または出力テンソルの次元が 3 に等しくない場合にのみ機能します。do_reshape
-output_format
値 (デフォルトでは [B,Cy,Cx]) に応じて、出力テンソルを [B,Cy,Cx] または [Cy,Cx,B] 形式に強制的に再形成します。cells
値を指定する必要がある場合があります。transpose
- 出力テンソルを指定された形式に転置します (オプション)。multiple_labels
- 検出オブジェクトに対して複数のラベルを許可します (デフォルトはFalse
)。
-
yolo_v3_onnx
- ONNX Yolo V3 モデルの出力をDetectionPrediction
に変換します。boxes_out
- 境界ボックスのあるレイヤーの名前scores_out
- 各クラスとボックスのペアの検出スコアを含む出力レイヤーの名前。indices_out
- インデックスのトリプレット (class_id、score_id、bbox_id) を持つ出力レイヤーの名前。
-
yolo_v3_tf2
- ボックスデコードが埋め込まれた TensorFlow 2 Yolo V3 の出力をDetectionPrediction
に変換します。outputs
- 出力レイヤー名のリスト。score_threshold
- 有効なボックスの最小許容スコア (オプション、デフォルトは 0)。
yolo_v5
- YOLO v5 ファミリーモデルの出力をDetectionPrediction
表現に変換します。パラメーターはyolo_v3
モデルの場合と同じです。yolof
- YOLOF モデルの出力をDetectionPrediction
表現に変換します。パラメーターはyolo_v3
モデルの場合と同じです。-
yolor
- YOLOR モデルの出力をDetectionPrediction
表現に変換します。output_name
- 出力レイヤーの名前。threshold
- 検出の有効な最小オブジェクトネス・スコア値 (オプション、デフォルトは 0.001)。num
- DarkNet 設定ファイルの num パラメーター (オプション、デフォルトは 5)。
-
yolox
- YOLOX モデルの出力をDetectionPrediction
表現に変換します。output_name
- 出力レイヤーの名前 (オプション)。threshold
- 検出の有効な最小オブジェクトネス・スコア値 (オプション、デフォルトは 0.001)。num
- DarkNet 設定ファイルの num パラメーター (オプション、デフォルトは 5)。
-
yolo_v8_detection
- オブジェクト検出用に事前トレーニングされた YOLO v8 ファミリーの出力をDetectionPrediction
に変換します。conf_threshold
- 有効な検出をフィルタリングするための最小信頼度 (オプション、デフォルトは 0.25)。multi_label
- 同じボックス座標に複数のラベルを使用できるようにします (オプション、デフォルトは True)。
lpr
- ナンバープレート認識モデルの出力をCharacterRecognitionPrediction
表現に変換します。-
aocr
- アテンション OCR モデルの出力をCharacterRecognitionPrediction
に変換します。output_blob
- 予測されたラベルまたは文字列を含む出力レイヤーの名前 (オプション、指定しない場合は、最初に見つかった出力が使用されます)。labels
- オプション、生ラベルのデコードにサポートされるトークンのリスト (オプション、デフォルト設定は ASCII チャームマップであり、モデルにデコード部分がある場合、このパラメーターは無視されます)。eos_index
- ラベル内の文字列トークンの終わりのインデックス。(オプション、デフォルトは 2、モデルにデコード部分がある場合は無視されます)。to_lower_case
- デコードされた文字を小文字に変換できるようにします (オプション、デフォルトはTrue
)。
-
ppocr
- PaddlePaddle CRNN のようなモデル出力をCharacterRecognitionPrediction
に変換します。vocabulary_file
- デコード用の認識記号を含むファイル。remove_duplicates
- 重複したシンボルの削除を許可します (オプション、デフォルト値 -True
)。
ssd
- SSD モデルの出力をDetectionPrediction
表現に変換します。ssd_mxnet
- SSD ベースのモデルの出力を MXNet フレームワークからDetectionPrediction
表現に変換します。-
pytorch_ssd_decoder
- 組み込みデコーダーを使用せずに、PyTorch からの SSD モデルの出力を変換します。scores_out
- 境界ボックススコアを含む出力レイヤーの名前。boxes_out
- 境界ボックスの座標を含む出力レイヤーの名前。confidence_threshold
- 有効なボックススコアの下限 (オプション、デフォルトは 0.05)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.5)。keep_top_k
- 保持する必要があるボックスの最大数 (オプション、デフォルトは 200)。feat_size
- [[feature_width, feature_height], …] 形式の機能サイズ (オプション、MLPerf から取得したデフォルト値) [[Feature_width, feature_haito], …]do_softmax
- 検出スコアにソフトマックスを適用するかどうかを示すブールタイプのフラグ。(オプション、デフォルトは True)。
-
ssd_onnx
- NonMaxSuppression レイヤーを使用して PyTorch からの SSD ベースのモデルの出力を変換します。labels_out
- ラベルまたは検索用の正規表現を含む出力レイヤーの名前。scores_out
- スコアまたは検索用の正規表現を含む出力レイヤーの名前。オプション、モデルにスコアとボックス座標が連結されている場合は指定できません。bboxes_out
- 検索用の bbox または正規表現を含む出力レイヤーの名前。
-
ssd_tf
- SSD ベースのモデルの出力を TensorFlow フレームワークからDetectionPrediction
表現に変換します。labels_out
- ラベルまたは検索用の正規表現を含む出力レイヤーの名前。scores_out
- スコアまたは検索用の正規表現を含む出力レイヤーの名前。bboxes_out
- 検索用の bbox または正規表現を含む出力レイヤーの名前。
-
tf_object_detection
- 検出モデルの出力を TensorFlow オブジェクト検出 API からDetectionPrediction
に変換します。classes_out
- 予測されたクラスを含む出力レイヤーの名前。boxes_out
- [y0, x0, y1, x1] 形式の予測ボックス座標を含む出力レイヤーの名前。scores_out
- 検出スコアを含む出力レイヤーの名前。num_detections_out
- 有効な検出の数を含む出力レイヤーの名前。
-
faster_rcnn_onnx
- ONNX Faster RCNN モデルの出力を次に変換します:DetectionPrediction
labels_out
- ラベルを含む出力レイヤーの名前。ラベルがボックスおよびスコアと連結されている場合はオプションです (ボックス出力のみが提供され、形状は [N, 6] です)。scores_out
- スコアを含む出力レイヤーの名前。スコアがボックスと連結されている場合はオプションです (ボックス出力の形状は [N, 5])。bboxes_out
- bbox を含む出力レイヤーの名前。
-
retinanet
- RetinaNet ベースのモデルの出力を変換します。loc_out
- 境界ボックスデルタを含む出力レイヤーの名前。class_out
- 分類確率を含む出力レイヤーの名前。
-
retinanet_multihead
- RetinaNet モデルの出力を複数レベルの出力に変換します。boxes_outputs
- ボックス付きの出力のリスト。-
class_outputs
- クラス確率を含む出力のリスト。重要: ボックスの出力とクラスの出力の数は同じでなければなりません。 ratios
- アンカー生成の比率のリスト (オプション、デフォルトは [1.0、2.0、0.5])。pre_nms_top_k
- NMS が適用される前に上位 k 個のボックスを保持します (オプション、デフォルトは 1000)。post_nms_top_k
- NMS 適用後の最終検出数 (オプション、デフォルトは 100)。nms_threshold
- NMS のしきい値 (オプション、デフォルトは 0.5)。min_conf
- 検出の最小信頼しきい値 (オプション、デフォルトは 0.05)。
-
retinanet_tf2
- TensorFlow 2 公式実装からの RetinaNet ベースのモデルの出力を変換します。boxes_outputs
- ボックス付きの出力のリスト。-
class_outputs
- クラス確率を含む出力のリスト。重要: ボックスの出力とクラスの出力の数は同じでなければなりません。 aspect_ratios
- アンカー生成のアスペクト比のリスト (オプション、デフォルトは [1.0、2.0、0.5])。min_level
- 最小ピラミッドレベル (オプション、デフォルトは 3)。max_level
- 最大ピラミッドレベル (オプション、デフォルトは 7)。num_scales
- アンカースケールの数 (オプション、デフォルトは 3)。anchor_size
- アンカーボックスのサイズ (オプション、デフォルトは 4)。pre_nms_top_k
- NMS が適用される前に上位 k 個のボックスを保持します (オプション、デフォルトは 5000)。total_size
- NMS 適用後の最終検出数 (オプション、デフォルトは 100)。nms_threshold
- NMS のしきい値 (オプション、デフォルトは 0.5)。score_threshold
- 検出の最小信頼しきい値 (オプション、デフォルトは 0.05)。
-
rfcn_class_agnostic
- Caffe RFCN モデルの出力を、境界ボックスにとらわれない回帰アプローチで変換します。cls_out
- 各クラスの検出された確率を含む出力レイヤーの名前。レイヤーの形状は [num_boxes, num_classes] です。ここで、num_boxes
は予測ボックスの数、num_classes
- 背景を含むデータセット内のクラスの数です。bbox_out
- 検出されたボックスデルタを含む出力レイヤーの名前。レイヤーの形状は [num_boxes, 8] です。ここで、num_boxes
は予測ボックスの数、8 (背景に 4 + 前景に 4) の境界ボックスの座標です。roid_out
- 対象領域を含む出力レイヤーの名前。
-
ppdetection
- PaddlePaddle 物体検出モデルの出力をDetectionPrediction
に変換します。boxes_out
- [[label
,score
,x_min
,y_min
,x_max
,y_max
] ... の形式で予測されたボックスを含む出力レイヤーの名前。num_boxes_out
- バッチ内の各画像の予測ボックスの数を含む出力レイヤーの名前。
-
face_person_detection
- 2 つの検出出力を持つ顔人物検出モデル出力をContainerPredition
に変換します。ここで、パラメーターface_out
とperson_out
の値は、コンテナ内のDetectionPrediction
の識別に使用されます。face_out
- 顔検出出力レイヤー名。person_out
- 人物検出出力レイヤー名。
-
person_attributes
- 人物属性認識モデルの出力をMultiLabelRecognitionPrediction
に変換します。attributes_recognition_out
- 属性スコアを含む出力レイヤー名。(オプション、モデルに複数の出力がある場合に使用されます)。
-
vehicle_attributes
- 車両属性認識モデルの出力をContainerPrediction
に変換します。ここで、パラメーターcolor_out
およびtype_out
の値は、コンテナ内での識別ClassificationPrediction
に使用されます。color_out
- 車両の色属性の出力レイヤー名。type_out
- 車両タイプ属性の出力レイヤー名。
-
head_pose
- 頭部姿勢推定モデルの出力をContainerPrediction
に変換します。ここで、パラメーターangle_pitch
、angle_yaw
およびangle_roll
の名前は、コンテナ内のRegressionPrediction
の識別に使用されます。angle_pitch
- ピッチ角の出力レイヤー名。angle_yaw
- ヨー角の出力レイヤー名。angle_roll
- ロール角の出力レイヤー名。
-
age_gender
- 年齢性別認識モデルの出力をContainerPrediction
に変換します。性別認識にはgender
という名前のClassificationPrediction
、年齢認識にはage_classification
という名前のClassificationPrediction
、およびage_error
という名前のRegressionPrediction
を使用します。age_out
- 年齢認識用の出力レイヤー名。gender_out
- 性別認識用の出力レイヤー名。
-
age_recognition
- 年齢認識モデルの出力を、年齢認識にage_classification
という名前のClassificationPrediction
とage_error
という名前のRegressionPrediction
を使用してContainerPrediction
に変換します。age_out
- 年齢認識のための出力レイヤー名 (オプション)。
-
action_detection
- 人物検出および行動認識タスクのモデルの出力を、クラスに依存しないメトリック計算用のDetectionPrediction
と行動認識用のActionDetectionPrediction
を使用したContainerPrediction
に変換します。コンテナの表現には、それぞれclass_agnostic_prediction
およびaction_prediction
という名前が付いています。priorbox_out
- SSD 形式の前のボックスを含むレイヤーの名前。loc_out
- SSD 形式のボックス座標を含むレイヤーの名前。main_conf_out
- 検出の信頼度を含むレイヤーの名前。add_conf_out_prefix
- トポロジーに後続の複数のレイヤーまたはレイヤー名がある場合、アクションの信頼度を含むレイヤーの世代のプリフィクス。add_conf_out_count
- アクションの信頼度を含むレイヤーの数 (オプション、アクションの信頼度が 1 つのレイヤーに含まれている場合は、この引数を指定できません)。num_action_classes
- 行動認識のための数値クラス。detection_threshold
- 有効な検出の最小検出信頼レベル。actions_scores_threshold
- 有効な検出のための最小限のアクションの信頼レベル。action_scale
- 正しいアクションスコアを計算するスケール。
-
image_processing
- 単一画像処理用のネットワークの出力をImageProcessingPrediction
に変換します。reverse_channels
- 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション、デフォルト値は False)。mean
- 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)-
std
- 範囲 [0, 255] の値を取得するために結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255) 重要 通常、mean
とstd
は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。
アクションの順序:
乗算
std
以下のコードを追加します。
mean
このオプションが有効な場合、チャネルを反転します。
target_out
- モデルに複数の出力があるターゲットモデルの出力レイヤー名。
-
super_resolution
- 単一画像超解像度ネットワークの出力をSuperResolutionPrediction
に変換します。reverse_channels
- 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション、デフォルト値は False)。mean
- 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)std
- 範囲 [0, 255] の値を取得するため結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255)-
cast_to_uint8
- 出力画像ピクセルを [0, 255] 範囲にキャストします。重要 通常、mean
とstd
は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。
アクションの順序:
乗算
std
以下のコードを追加します。
mean
このオプションが有効な場合、チャネルを反転します。
target_out
- モデルに複数の出力がある場合の超解像度モデルの出力レイヤー名。
-
multi_target_super_resolution
- 複数の出力を持つ出力超解像度ネットワークを、出力ごとにSuperResolutionPrediction
を使用してContainerPrediction
に変換します。reverse_channels
- 出力画像チャネルの切り替えを許可します。例: RGB から BGR (オプション、デフォルト値は False)。mean
- 値または範囲 [0, 255] の値を取得するため結果に追加するチャネルごとの値のリスト (オプション、デフォルトは 0)std
- 範囲 [0, 255] の値を取得するため結果を乗算する値またはリストのチャネルごとの値 (オプション、デフォルトは 255)-
cast_to_uint8
- 出力画像ピクセルを [0, 255] 範囲にキャストします。重要 通常、mean
とstd
は前処理と同じですが、これらの前処理操作を元に戻すために使用されます。
アクションの順序:
乗算
std
以下のコードを追加します。
mean
このオプションが有効な場合、チャネルを反転します。
target_mapping
- ここで、キーはConverterPrediction
内でキーとして使用される解決済みタスクの名前、値は出力レイヤー名です。
-
super_resolution_yuv
- YUV 形式で出力を返す超解像度モデルの出力をSuperResolutionPrediction
に変換します。各出力レイヤーには 1 つのチャネルのみが含まれます。y_output
- Y チャネルの出力レイヤー。u_output
- U チャネルの出力レイヤー。v_output
- V チャネルの出力レイヤー。target_color
- 超解像度画像のターゲット色空間 -bgr
およびrgb
がサポートされています。(オプションであり、デフォルトはbgr
)。
-
landmarks_regression
- ランドマーク回帰のモデルの出力をFacialLandmarksPrediction
またはHandLandmarksPrediction
に変換します。landmarks_out
- ランドマークの出力レイヤー。landmarks_step
- ランドマークごとの座標の数 (オプション、デフォルトは2
)。is_hand_landmarks
-FacialLandmarksPrediction
の代わりにHandLandmarksPrediction
への変換を許可します (オプション、デフォルトはFalse
)。
-
pixel_link_text_detection
- テキスト検出用の PixelLink のようなモデルの出力をTextDetectionPrediction
に変換します。pixel_class_out
- 各ピクセルのテキスト/非テキスト分類に関連する情報を含むレイヤーの名前。pixel_link_out
- ピクセルとその隣接ピクセル間のリンクに関する情報を含むレイヤーの名前。pixel_class_confidence_threshold
- 有効なセグメント化マスクの信頼度のしきい値 (オプション、デフォルトは 0.8)。pixel_link_confidence_threshold
- 有効なピクセルリンクの信頼しきい値 (オプション、デフォルトは 0.8)。min_area
- 有効なテキスト予測の最小領域 (オプション、デフォルトは 0)。min_height
- 有効なテキスト予測の最小高 (オプション、デフォルトは 0)。
-
ctpn_text_detection
- テキスト検出用の CTPN のようなモデルの出力をTextDetectionPrediction
に変換します。cls_prob_out
- クラスの確率を含む出力レイヤーの名前。bbox_pred_out
- 予測されたボックスを含む出力レイヤーの名前。min_size
- 検出された有効なテキスト提案の最小サイズ (オプション、デフォルトは 8)。min_ratio
- 有効なテキスト行の最小幅/高の比率 (オプション、デフォルトは 0.5)。line_min_score
- テキスト行の最小信頼度 (オプション、デフォルトは 0.9)。text_proposals_width
- テキスト提案の最小幅 (オプション、デフォルトは 16)。min_num_proposals
- テキスト提案の最小数 (オプション、デフォルトは 2)。pre_nms_top_n
- NMS 適用前に保存された上位 n 個のプロポーザル (オプション、デフォルトは 12000)。post_nms_top_n
- NMS 適用後に保存された上位 n 個のプロポーザル (オプション、デフォルトは 1000)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.7)。
-
east_text_detection
- テキスト検出用の EAST のようなモデルの出力をTextDetectionPrediction
に変換します。score_map_out
- スコアマップを含む出力レイヤーの名前。geometry_map_out
- ジオメトリー・マップを含む出力レイヤーの名前。score_map_threshold
- スコアマップのしきい値 (オプション、デフォルトは 0.8)。nms_threshold
- テキストボックス NMS のしきい値 (オプション、デフォルトは 0.2)。box_threshold
- テキストボックスの最小信頼しきい値 (オプション、デフォルトは 0.1)。
-
craft_text_detection
- テキスト検出用の CRAFT のようなモデルの出力をTextDetectionPrediction
に変換します。score_out
- スコアマップを含む出力レイヤーの名前。text_threshold
- テキストの信頼度のしきい値 (オプション、デフォルトは 0.7)。link_threshold
- リンク信頼度のしきい値 (オプション、デフォルトは 0.4)。low_text
- テキストの下限スコア (オプション、デフォルトは 0.4)。
-
ppocr_det
- 出力 PPOCR テキスト検出モデルを変換TextDetectionPrediction
threshold
- セグメント化ビットマップのしきい値 (オプション、デフォルトは 0.3)。box_threshold
- 信頼度のしきい値による予測ボックスのフィルタリング (オプション、デフォルトは 0.7)。max_candidates
- 考慮すべき検出された候補の最大数 (オプション、デフォルトは 1000)。unclip_ratio
- アンクリップ率 (オプション、デフォルトは 2)。min_size
- 最小ボックスサイズ (オプション、デフォルトは 3)。
facial_landmarks_detection
- 顔ランドマーク検出用のモデルの出力をFacialLandmarksHeatMapPrediction
に変換します。-
human_pose_estimation
- 人間の姿勢推定のモデルの出力をPoseEstimationPrediction
に変換します。part_affinity_fields_out
- キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。-
keypoints_heatmap_out
- キーポイント・ヒートマップを含む出力レイヤーの名前。モデルに出力レイヤーが 1 つだけ (この 2 つの出力レイヤーを連結したもの) である場合、出力レイヤーは省略できます。
-
human_pose_estimation_openpose
- 人間の姿勢推定のための OpenPose に似たモデルの出力をPoseEstimationPrediction
に変換します。part_affinity_fields_out
- キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。keypoints_heatmap_out
- キーポイント・ヒートマップを含む出力レイヤーの名前。upscale_factor
- 後処理前のヒートマップとパーツ・アフィニティー・フィールドのアップスケーリング係数。
-
human_pose_estimation_ae
- 人間の姿勢推定の連想埋め込み型モデルの出力をPoseEstimationPrediction
に変換します。heatmaps_out
- キーポイント・ヒートマップを含む出力レイヤーの名前。nms_heatmaps_out
- 非最大抑制後のキーポイント・ヒートマップを含む出力レイヤーの名前。embeddings_out
- 埋め込み (タグ) マップを含む出力レイヤーの名前。
-
beam_search_decoder
- シンボルシーケンス認識用の CTC Beam Search デコーダーを実現し、モデル出力をCharacterRecognitionPrediction
に変換します。beam_size
- デコード中に使用するビームのサイズ (デフォルトは 10)。blank_label
- CTC ブランクラベルのインデックス。softmaxed_probabilities
- モデルが出力レイヤーにソフトマックスを使用することを示すインジケーター (デフォルトは False)。logits_output
- デコーダーで使用するネットワークの出力レイヤーの名前custom_label_map
- 文字列の辞書としてのアルファベット。CTC アルゴリズムの空白記号を含める必要があります (dataset_meta または vocabulary_file で指定されている場合はオプション)。vocabulary_file
- モデル語彙を含むファイル。txt ファイルとして表され、各ラベルが独自の行に配置されます (オプション)。
-
ctc_greedy_search_decoder
- シンボルシーケンス認識用の CTC Greedy Search デコーダーを実現し、モデル出力をCharacterRecognitionPrediction
に変換します。blank_label
- CTC ブランクラベルのインデックス (デフォルトは 0)。logits_output
- ネットワークの出力レイヤーの名前 (オプション)。custom_label_map
- 文字列の辞書としてのアルファベット。CTC アルゴリズムの空白記号を含める必要があります (dataset_meta または vocabulary_file で指定されている場合はオプション)。vocabulary_file
- モデル語彙を含むファイル。txt ファイルとして表され、各ラベルが独自の行に配置されます (オプション)。shift_labels
- ラベルマップ ID が 0 位置に空白ラベルなしで表現されている場合は、ラベルマップ ID を 1 にシフトします (オプション、デフォルトは False)。
-
simple_decoder
- テキスト認識モデルの最も簡単なデコーダー。クラスのインデックスを指定された文字に変換し、次の最初のエントリーで出力をスライスします:eos_label
eos_label
- デコードを終了するラベル (オプション、デフォルトは[s]
)。start_label
- デコードを開始するラベル (オプション)。custom_label_map
- ラベルマップ (データセット・メタによって提供されない場合)。start_index
- 予測データの開始インデックス (オプション、デフォルトは 0)。do_lower
- 予測データを小文字に変換できます (オプション、デフォルトは False)。vocabulary_file
- デコードラベルを含むファイル (オプション)。
ctc_beam_search_decoder
- 音声認識用 LM を使用しない CTC ビーム検索デコーダーの Python 実装。ctc_greedy_decoder
- 音声認識用の積極的な CTC デコーダー。-
ctc_beam_search_decoder_with_lm
- 音声認識用の kenlm バイナリー形式の N-gram 言語モデルを使用した CTC ビーム検索デコーダーの Python 実装。beam_size
- デコード中に使用するビームのサイズ (デフォルトは 10)。logarithmic_prob
- “True” に設定すると、ネットワークが自然対数確率を与えることを示します。単純な確率 (ソフトマックス後) のデフォルトは False です。probability_out
- 文字確率を含むネットワークの出力の名前 (必須)alphabet
- 文字列のリストとしてのアルファベット。CTC 空白シンボルには空の文字列を含めます。デフォルトは、スペース + 26 文字の英字 + アポストロフィ + 空白です。sep
- 単語の区切り文字。文字ベースの LM には空の文字列を使用します。デフォルトはスペースです。lm_file
- –model_attributes または –models を基準としたバイナリー kenlm 形式の LM へのパス。デフォルトは LM なしのビームサーチです。lm_alpha
- LM アルファ: LM スコアの重み係数 (LM を使用する場合に必要)lm_beta
- LM ベータ: log_e 単位での追加単語ごとのスコアボーナス (LM を使用する場合に必要)lm_oov_score
- 語彙外の単語の LM スコアをこの値に置き換えます (デフォルトは 1000、LM なしでは無視されます)lm_vocabulary_offset
- LM ファイルの語彙文字列セクションの始まり。デフォルトでは、語彙を使用して候補単語をフィルタリングしません (LM なしでは無視されます)lm_vocabulary_length
- LM ファイル内の語彙文字列セクションのバイト単位のサイズ (LM なしでは無視されます)
-
fast_ctc_beam_search_decoder_with_lm
- 音声認識用の kenlm バイナリー形式の N-gram 言語モデルを備えた CTC ビーム検索デコーダーは、<omz_dir>/demos/speech_recognition_deepspeech_demo/python/ctcdecode-numpy/
ディレクトリーにあるctcdecode_numpy
Python モジュールに依存します。beam_size
- デコード中に使用するビームのサイズ (デフォルトは 10)。logarithmic_prob
- “True” に設定すると、ネットワークが自然対数確率を与えることを示します。単純な確率 (ソフトマックス後) のデフォルトは False です。probability_out
- 文字確率を含むネットワークの出力の名前 (必須)alphabet
- 文字列のリストとしてのアルファベット。CTC 空白シンボルには空の文字列を含めます。デフォルトは、スペース + 26 文字の英字 + アポストロフィ + 空白です。sep
- 文字ベースの LM の場合は空の文字列に設定します。デフォルトはスペースです。lm_file
- –model_attributes または –models を基準としたバイナリー kenlm 形式の LM へのパス。デフォルトは LM なしのビームサーチです。lm_alpha
- LM アルファ: LM スコアの重み係数 (LM を使用する場合に必要)lm_beta
- LM ベータ: log_e 単位での追加単語ごとのスコアボーナス (LM を使用する場合に必要)
-
wav2vec
- 出力 Wav2Vec モデルをCharacterRecognitionPrediction
にデコードします。alphabet
- 変換 token_id でサポートされているトークンのリスト。pad_token
- アルファベットのパディングを表すトークン (wav2vec はこのトークンを CTC-blank として使用します) オプション、デフォルトは<pad>
。words_delimeter
- トークン。連続する単語間の区切り文字を表します。オプションであり、デフォルトは|
。group_tokens
- 繰り返されるトークンを 1 つずつ置き換えることができます。オプションであり、デフォルトはTrue
。lower_case
- 結果を小文字に変換できるようにします。オプションであり、デフォルトはFalse
。cleanup_whitespaces
- 余分な空白を 1 つにマージできます。オプションであり、デフォルトはTrue
。
gaze_estimation
- 視線推定モデルの出力をGazeVectorPrediction
に変換します。hit_ratio_adapter
- 出力 NCF モデルをHitRatioPrediction
に変換します。-
brain_tumor_segmentation
- 脳腫瘍セグメント化モデルの出力をBrainTumorSegmentationPrediction
に変換します。segmentation_out
- セグメント化出力レイヤー名。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。make_argmax
- argmax 演算を出力値に適用できます。(デフォルト -False
)label_order
- 出力クラスからデータセット・クラスへのマッピングを設定します。例:label_order: [3,1,2]
は、モデルの出力の ID 3 のクラスはデータセットの ID 1 のクラスと一致し、モデルの出力の ID 1 のクラスはデータセットの ID 2 のクラスと一致し、モデルの出力の ID 2 のクラスはデータセットの ID 3 のクラスと一致します。
-
nmt
- ニューラル機械翻訳モデルの出力をMachineTranslationPrediction
に変換します。vocabulary_file
- モデルが予測した単語のインデックスをエンコードする語彙を含むファイル (vocab.bpe.32000.de など)。パスには--models
引数でプリフィクスを付けることができます。eos_index
- 語彙内の文字列の終わりのシンボルのインデックス (オプション、ランチャーが空の予測をカットオフする動的出力形状をサポートしていない場合に使用されます)。
bert_question_answering_embedding
- 埋め込みベクトルを生成するようにトレーニングされた BERT モデルの出力をQuestionAnsweringEmbeddingPrediction
に変換します。-
narnmt
- 非自己回帰ニューラル機械翻訳モデルの出力をMachineTranslationPrediction
に変換します。vocabulary_file
- モデルが予測した単語のインデックスをエンコードする語彙を含むファイル (vocab.json など)。パスには--models
引数でプリフィクスを付けることができます。merges_file
- モデルが予測した単語へのインデックスをエンコードするマージを含むファイル (例: merges.txt)。パスには--models
引数でプリフィクスを付けることができます。output_name
- 必要に応じて、モデルの出力レイヤーの名前 (オプション)。sos_symbol
- start_of_sentence シンボルの文字列表現 (デフォルト =<s>
)。eos_symbol
- end_of_sentence シンボルの文字列表現 (デフォルト =</s>
)。pad_symbol
- パッド記号の文字列表現 (デフォルト =<pad>
)。remove_extra_symbols
- 予測文字列から sos/eos/pad シンボルを削除します (デフォルト = True)
bert_question_answering
- 質問応答タスクを解決するためにトレーニングされた BERT モデルの出力をQuestionAnsweringPrediction
に変換します。-
bidaf_question_answering
- 質問応答タスクを解決するためにトレーニングされた BiDAF モデルの出力をQuestionAnsweringPrediction
に変換します。start_pos_output
- 回答の開始位置を含む出力レイヤーの名前。end_pos_output
- 回答の終了位置を含む出力レイヤーの名前。
-
bert_classification
- テキスト分類タスク用にトレーニングされた BERT モデルの出力を、ClassificationPrediction
に変換します。num_classes
- 予測されたクラスの数。classification_out
- 分類確率を含む出力レイヤーの名前。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。single_score
- モデルがバイナリー分類の場合のクラス ID またはクラス 1 に属する確率を表す単一の値を返すことを強調します (オプション、デフォルトはFalse
)。
-
bert_ner
- 固有表現認識タスク用にトレーニングされた BERT モデルの出力をSequenceClassificationPrediction
に変換します。classification_out
- 分類確率を含む出力レイヤーの名前。(オプション。指定しない場合は、デフォルトの最初の出力ブロブが使用されます)。
-
human_pose_estimation_3d
- 3D 人間の姿勢推定のためのモデルの出力をPoseEstimation3dPrediction
に変換します。features_3d_out
- 3D 座標マップを含む出力レイヤーの名前。keypoints_heatmap_out
- キーポイント・ヒートマップを含む出力レイヤーの名前。part_affinity_fields_out
- キーポイントのペア関係 (一部のアフィニティー・フィールド) を含む出力レイヤーの名前。
-
ctdet
- CenterNet オブジェクト検出モデルの出力をDetectionPrediction
に変換します。center_heatmap_out
- 中心点のヒートマップを含む出力レイヤーの名前。width_height_out
- オブジェクト・サイズを含む出力レイヤーの名前。regression_out
- オフセット予測を使用した回帰出力の名前。
-
mask_rcnn
- Mask-RCNN の生の出力をDetectionPrediction
とCoCoInstanceSegmentationPrediction
の組み合わせに変換します。classes_out
- クラスに関する情報を含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。scores_out
- bbox スコアを含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。boxes_out
- bbox を含む出力レイヤーの名前 (モデルに出力として detect_output レイヤーがある場合はオプション)。raw_masks_out
- raw インスタンス・マスクを含む出力レイヤーの名前。num_detections_out
- 有効な検出数を含む出力レイヤーの名前 (TF オブジェクト検出 API でトレーニングされた MaskRCNN モデルで使用)。detection_out
- SSD のような検出出力レイヤー名 (モデルに scores_out、boxs_out、classes_out がある場合はオプション)。
-
mask_rcnn_with_text
- 追加のテキスト認識ヘッドを備えた Mask-RCNN の生の出力をTextDetectionPrediction
に変換します。classes_out
- クラスに関する情報を含む出力レイヤーの名前。scores_out
- bbox スコアを含む出力レイヤーの名前。boxes_out
- bbox を含む出力レイヤーの名前。raw_masks_out
- raw インスタンス・マスクを含む出力レイヤーの名前。texts_out
- テキストを含む出力レイヤーの名前。confidence_threshold
- 検出されたインスタンスを除外するために使用される信頼度のしきい値。
-
yolact
- Yolact モデルの生の出力をDetectionPrediction
とCoCoInstanceSegmentationPrediction
の組み合わせに変換します。loc_out
- ボックスの位置を含む出力レイヤーの名前。モデルに埋め込まれたボックスをデコードする場合はオプション。prior_out
- 前のボックスを含む出力レイヤーの名前。モデルに埋め込まれたボックスをデコードする場合はオプション。boxes_out
- デコードされた出力ボックスを含む出力レイヤーの名前。モデルにボックスデコード用のprior
のloc
出力がある場合はオプション。conf_out
- 各ボックスのすべてのクラスの信頼スコアを含む出力レイヤーの名前。mask_out
- インスタンス・マスクを含む出力レイヤーの名前。proto_out
- マスク計算用のプロトを含む出力レイヤーの名前。confidence_threshold
- 検出されたインスタンスを除外するために使用される信頼度のしきい値 (オプション、デフォルトは 0.05)。max_detections
- メトリックの計算に使用される最大検出値 (オプション、デフォルトは 100)。
-
class_agnostic_detection
- 検出モデルの ‘boxes’ [n, 5] 出力をDetectionPrediction
表現に変換します。output_blob
- bbox を含む出力レイヤーの名前。scale
- bbox 座標を正規化するスカラー値または 2 つの値を含むリスト。
mono_depth
- 単眼奥行き推定モデルの出力をDepthEstimationPrediction
に変換します。inpainting
- 画像修復モデルの出力をImageInpaintingPrediction
表現に変換します。style_transfer
- スタイル転送モデルの出力をStyleTransferPrediction
表現に変換します。-
retinaface
- RetinaFace モデルの出力をDetectionPrediction
またはDetectionPrediction
、AttributeDetectionPrediction
、FacialLandmarksPrediction
を使用した表現コンテナに変換します (出力セットに応じて異なります)。scores_outputs
- 32、16、8 ストライドに属する順の顔検出スコアを持つ出力レイヤーの名前のリスト。bboxes_outputs
- 32 ストライド、16 ストライド、8 ストライドに属する順の顔検出ボックスを含む出力レイヤーの名前のリスト。landmarks_outputs
- 32 ストライド、16 ストライド、8 ストライドに属する順序で予測された顔ランドマークを持つ出力レイヤーの名前のリスト (オプション。指定しない場合は、DetectionPrediction
のみが生成されます)。type_scores_outputs
- 32、16、8 ストライドに属する順序で属性検出スコアを持つ出力レイヤーの名前のリスト (オプション。指定しない場合は、DetectionPrediction
のみが生成されます)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.5)。keep_top_k
- 保持する必要があるボックスの最大数 (オプション)。include_boundaries
- NMS の境界を含めることができます (オプション、デフォルトは False)。
-
retinaface-pytorch
- RetinaFace PyTorch モデルの出力をDetectionPrediction
またはDetectionPrediction
、FacialLandmarksPrediction
を使用した表現コンテナに変換します (提供された出力セットに応じて異なります)scores_output
- 顔検出スコアを含む出力レイヤーの名前。bboxes_output
- 顔検出ボックスを含む出力レイヤーの名前。landmarks_output
- 予測された顔のランドマークを含む出力レイヤーの名前 (オプション、指定しない場合は、DetectionPrediction
のみが生成されます)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.4)。keep_top_k
- 保持する必要があるボックスの最大数 (オプション、デフォルトは 750)。include_boundaries
- NMS の境界を含めることができます (オプション、デフォルトは False)。confidence_threshold
- 検出されたインスタンスを除外するために使用される信頼度のしきい値 (オプション、デフォルトは 0.02)。
-
faceboxes
- FaceBoxes モデルの出力をDetectionPrediction
表現に変換します。scores_out
- 境界ボックススコアを含む出力レイヤーの名前。boxes_out
- 境界ボックスの座標を含む出力レイヤーの名前。
-
prnet
- 3D ランドマーク回帰タスクの PRNet モデルの出力を次のように変換します:FacialLandmarks3DPrediction
landmarks_ids_file
- 位置ヒートマップからランドマークを抽出するインデックスを含むファイル。(オプション、デフォルト値はこちらで定義されています)
-
person_vehicle_detection
- 人物車両検出モデルの出力をDetectionPrediction
表現に変換します。アダプターはスコアをマージし、予測を人物と車両にグループ化して、それに応じてラベルを割り当てます。iou_threshold
- NMS 動作の IOU しきい値。
-
face_detection
- 顔検出モデルの出力をDetectionPrediction
表現に変換します。操作は、モデル出力を定義されたアンカー、ウィンドウスケール、ウィンドウの変換、およびウィンドウの長さにマッピングして顔候補のリストを生成することで実行されます。score_threshold
- 顔が有効であるか識別するスコアしきい値。layer_names
- ターゲット出力レイヤーのベース名。anchor_sizes
- 各ベース出力レイヤーのアンカーサイズ。window_scales
- 各基本出力レイヤーのウィンドウスケール。window_lengths
- 各基本出力レイヤーのウィンドウの長さ。
-
face_detection_refinement
- 顔検出改良モデルの出力をDetectionPrediction
表現に変換します。アダプターは、前のステージのモデルで生成された候補を絞り込みます。threshold
- 有効な顔候補を決定するスコアのしきい値。
-
attribute_classification
- 属性分類モデルの出力を、属性とそのスコアに関する複数のClassificationPrediction
を含むContainerPrediction
に変換します。output_layer_map
- キーが属性分類モデルの出力レイヤー名、値が属性の名前である辞書。
-
regression
- 回帰モデルの出力をRegressionPrediction
表現に変換します。keep_shape
- 予測された多次元配列の形状を維持できるようにします (オプション、デフォルトは False)。
-
multi_output_regression
- gt データを使用した回帰のために、生の出力特徴をRegressionPrediction
に変換します。output
- ターゲット出力名のリスト。ignore_batch
- 出力バッチサイズを無視するかどうか。オンライン・ビデオ・ストリームを処理する場合、出力バッチサイズは無視されます。デフォルトは False です。
-
mixed
- 任意のモデルの出力を、複数のタイプの予測を含むContainerPrediction
に変換します。adapters
- 辞書。キーは出力名、値はモデルの出力とアダプターを関連付けるoutput_blob
キーを含むアダプター構成マップです。
person_vehilce_detection_refinement
- 人物車両検出改良モデルの出力をDetectionPrediction
表現に変換します。アダプターは、前のステージのモデルで生成されたプロポーズを改良します。-
head_detection
- 頭部検出モデルの出力をDetectionPrediction
表現に変換します。操作は、モデル出力を定義されたアンカー、ウィンドウスケール、ウィンドウの変換、およびウィンドウの長さにマッピングして頭の候補リストを生成することで実行されます。score_threshold
- 顔が有効であるか識別するスコアしきい値。anchor_sizes
- 各ベース出力レイヤーのアンカーサイズ。window_scales
- 各基本出力レイヤーのウィンドウスケール。window_lengths
- 各基本出力レイヤーのウィンドウの長さ。
face_recognition_quality_assessment
- 顔認識品質評価モデルの出力をQualityAssessmentPrediction
表現に変換します。-
duc_segmentation
- DUC セマンティック・セグメント化モデルの出力をDUCSegmentationAdapter
表現に変換しますds_rate
- ダウンサンプル・レートを指定します。cell_width
- 予測を抽出するセルの幅を指定します。label_num
- 出力ラベルクラスの数を指定します。
-
stacked_hourglass
- 単一の人間の姿勢推定に対する積み上げ砂時計ネットワークの出力をPoseEstimationPrediction
に変換します。score_map_output
- スコアマップを取得するための出力レイヤーの名前 (オプション、指定しない場合はデフォルトの出力ブロブが使用されます)。
-
dna_seq_beam_search
- ビーム検索デコードを使用して、DNA シーケンスモデルの出力をDNASequencePrediction
に変換します。beam_size
- CTC ビーム検索のビームサイズ (オプション、デフォルトは 5)。threshold
- ビームカットしきい値 (オプション、デフォルトは 1e-3)。output_blob
- シーケンス予測を含む出力レイヤーの名前 (オプション、指定されていない場合はモデルから自動的に選択されます)。
-
dna_seq_crf_beam_search
- ビーム検索デコードを使用して、DNA シーケンシング CRF モデルの出力をDNASequencePrediction
に変換します。output_blob
- シーケンス予測を含む出力レイヤーの名前 (オプション、指定されていない場合はモデルから自動的に選択されます)。
-
pwcnet
- PWCNet ネットワークの出力をOpticalFlowPrediction
に変換します。flow_out
- ターゲット出力レイヤー名。
-
salient_object_detection
- 顕著な物体検出モデルの出力を次のように変換します:SalientRegionPrediction
salient_map_output
- 顕著性マップを取得するターゲット出力レイヤー (オプション、指定しない場合はデフォルトの出力ブロブが使用されます)。
-
two_stage_detection
- 2 段階検出器の出力をDetectionPrediction
に変換します。boxes_out
- BxNx[x_min, y_min, width, height] 形式の境界ボックスを含む出力。ここで、B - ネットワーク・バッチ・サイズ、N - 検出されたボックスの数。cls_out
- [BxNxC] 形式の分類確率を含む出力。ここで、B - ネットワーク・バッチ・サイズ、N - 検出されたボックスの数、C - 分類されたボックスの数。
-
dumb_decoder
- 音声認識モデルの出力をCharacterRecognitionPrediction
に変換します。alphabet
- サポートされているトークンのリスト。語彙が非常に大きい場合は、受け入れられたトークンのリストを含む txt ファイルを使用して、vocabulary_file
を使用することもできます (各トークンは、token_id として個別の行に配置する必要があります)。blank_token_id
- 空のトークンの token_id (オプション、デコード後の空のラベルのフィルタリングに使用されます)。eos_token_id
- 文字列の末尾の token_id (オプション、デコード後の EOS トークンのフィルタリングに使用されます)。replace_underscore
- デコード後に解除記号を空白に置き換えることができます。uppercase
- 予測を大文字で生成します。デフォルトはTrue
です。
-
detr
- DETR モデルファミリーの出力をDetectionPrediction
に変換します。scores_out
- 検出スコアのロジットを含む出力レイヤー名。boxes_out
- [Cx,Cy,W,H] 形式の検出ボックス座標を含む出力レイヤー名。ボックスの中心の Cx - x 座標、ボックスの中心の Cy - y 座標、W、H - 幅と高さそれぞれ。
-
ultra_lightweight_face_detection
- 超軽量顔検出モデルの出力をDetectionPrediction
表現に変換します。scores_out
- 境界ボックススコアを含む出力レイヤーの名前。boxes_out
- 境界ボックスの座標を含む出力レイヤーの名前。score_threshold
- 有効なボックスの最小許容スコア (オプション、デフォルトは 0.7)。
trimap
- グレースケール・モデル出力をImageProcessingPrediction
に変換します。カットゾーンとキープゾーンのピクセル値をそれぞれ 0 と 1 に置き換えます。他のすべての後処理は、image_processing
アダプターから継承されます。background_matting
- 背景マットモデルの出力をBackgroundMattingPrediction
に変換します。-
noise_suppression
- オーディオノイズ除去モデルの出力をNoiseSuppressionPrediction
に変換します。output_blob
- 処理された信号を含む出力レイヤーの名前 (オプション、指定しない場合は、モデルで最初に見つかった出力が使用されます)。
-
kaldi_latgen_faster_mapped
- 出力 Kaldi* 自動音声認識モデルを、CharcterRecognitionPrediction
への遷移モデルによる格子生成アプローチを使用してデコードします。重要 このアダプターには Kaldi* のインストールが必要です (67db30cc
コミットの使用をお勧めします) そして、コンパイルされた実行可能アプリが含まれるディレクトリーへのパスを提供します:latgen-faster-mapped
、lattice-scale
、lattice-add-penalty
、lattice-best-path
。パスのディレクトリーは、--kaldi_bin_dir
コマンドライン引数またはKALDI_BIN_DIR
環境変数を使用して指定できます。-
fst_file
- 重み付き有限状態トランスデューサー (WFST) 状態グラフファイル。*words_file
- 単語テーブルファイル。 transition_model_file
- 遷移モデルファイル。beam
- ビームサイズ (オプション、デフォルトは1
)。lattice_beam
- 格子ビームのサイズ (オプション、デフォルトは1
)。allow_partial
- 部分的なデコードを許可します (オプション、デフォルトはFalse
)。acoustic_scale
- デコード用の音響スケール (オプション、デフォルトは0.1
)。min_active
- デコード用の最小アクティブパス (オプション、デフォルトは200
)。max_active
- デコード用の最大アクティブパス (オプション、デフォルトは7000
)。inverse_acoustic_scale
- 格子スケーリング用の逆音響スケール (オプション、デフォルトは0
)。word_insertion_penalty
- 格子に単語挿入ペナルティーを追加します。ペナルティーは負の対数確率、基数 e で、コストの言語モデルの部分に追加されます (オプション、0
)。
-
-
kaldi_feat_regression
- 必要に応じて、行列特徴全体をマージし、コンテキスト・ウィンドウ・サイズに応じて逆処理を行うことで、kaldi モデルからの出力特徴をRegressionPrediction
に変換します。target_out
- 回帰のターゲット出力レイヤーの名前 (オプション、指定しない場合、最初の出力が使用されます)。flattenize
- 出力特徴を平坦化します。(オプションであり、デフォルトはFalse
)。
-
quantiles_predictor
- 時系列予測モデルの出力をTimeSeriesForecastingQuantilesPrediction
に変換します。quantiles
- 予測[i] -> 分位数[i] マッピング。output_name
- 変換する出力ノードの名前。
-
mask_to_binary_classification
- セグメント化マスクとして表されるモデルの出力をArgMaxClassificationPrediction
に変換します。指定されたしきい値とのマスク内の比較最大確率として計算されたクラスラベル。threshold
- ラベル 1 の確率しきい値 (オプション、デフォルトは 0.5)。
-
ssd_multilabel
- 複数のラベルが 1 つのボックスに対応できる SSD ベースのモデルの出力をDetectionPrediction
表現に変換します。scores_out
- 境界ボックススコアを含む出力レイヤーの名前。boxes_out
- 境界ボックスの座標を含む出力レイヤーの名前。confidence_threshold
- 有効なボックススコアの下限 (オプション、デフォルトは 0.01)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.45)。keep_top_k
- NMS 中に保持する必要があるボックスの最大数 (オプション、デフォルトは 200)。diff_coord_order
- 座標の順序付け規則は、一般的に使用される形式 [x0, y0, x1, y1] とは異なります。値が True の場合、座標の形式は [y0, x0, y1, x1] (オプション、デフォルトは False) です。max_detections
- 保持する必要があるボックスの最大数 (オプション)。
-
background_matting_with_pha_and_fgr
- 前景とアルファを予測する背景マットモデルの出力をBackgroundMattingPrediction
に変換します。alpha_out
- アルファを含む出力レイヤーの名前。foreground_out
- 前景を持つ出力レイヤーの名前。
-
nanodet
- NanoDet モデルファミリーの出力をDetectionPrediction
表現に変換します。num_classes
- 予測クラスの数 (オプション、デフォルトは 80)。confidence_threshold
- 有効なボックススコアの下限 (オプション、デフォルトは 0.05)。nms_threshold
- NMS のオーバーラップしきい値 (オプション、デフォルトは 0.6)。max_detections
- 保持する必要があるボックスの最大数 (オプション、デフォルトは 100)。reg_max
- 整数セットの最大値 (オプション、デフォルトは 7)。strides
- 入力マルチレベル特徴マップのストライド (オプション、デフォルト [8、16、32])。is_legacy
- 従来の NanoDet モデルを使用します (オプション、デフォルトは False)。
-
palm_detection
- 手のひら検出モデルの出力をDetectionPrediction
表現に変換します。scores_out
-scores
モデル出力の名前。boxes_out
-boxes
モデル出力の名前。num_anchor_layers
- アンカー計算のレイヤー数 (オプション、デフォルトは4
)。strides
- 入力マルチレベル特徴マップのストライド (オプション、デフォルト[8, 16, 16, 16]
)。min_scale
- アンカー計算の最小スケール (オプション、デフォルトは0.1484375
)。max_scale
- アンカー計算の最大スケール (オプション、デフォルトは0.75
)。input_size_width
- モデル入力イメージの幅 (オプション、デフォルトは128
)。input_size_height
- モデル入力イメージの高さ (オプション、デフォルトは128
)。reduce_boxes_in_lowest_layer
- 最下レイヤーのアンカーサイズを小さくします (オプション、デフォルトはFalse
)。aspect_ratios
- マルチレベル特徴マップのアスペクト比 (オプション、デフォルト[1]
)。inteprolated_scale_aspect_ratio
- 補間スケールのアスペクト比 (オプション、デフォルトは1
)。fixed_anchor_size
- 固定サイズのアンカーを生成します (オプション、デフォルトは ‘True’)。sigmoid_score
- スコア出力はシグモイドです (オプション、デフォルトは ‘True’)。score_clipping_thresh
- スコア・クリッピングのしきい値 (オプション、デフォルトは100
)。reverse_output_order
-boxes
の出力データの順序は (y,x) ではなく (x,y) です (オプション、デフォルトはTrue
)。keypoint_coord_offset
-boxes
出力内のキーポイント座標のオフセット (オプション、デフォルトは4
)。num_keypoints
-boxes
出力内のキーポイントの数 (オプション、デフォルトは7
)。num_values_per_keypoint
- キーポイントごとの座標の数 (オプション、デフォルトは2
)。scales
- 検出ボックスのスケールは x、y、w、h です。(オプション、デフォルトは[128, 128, 128, 128]
)。min_score_thresh
- 有効なボックススコアの下限 (オプション、デフォルトは0.5
)。apply_exp_on_box_size
- ボックスのサイズは指数の引数です (オプション、デフォルトはFalse
)。num_classes
- 検出クラスの数 (オプション、デフォルトは1
)。