common-sign-language-0001¶
ユースケースと概要説明¶
Jester データセット認識シナリオ用の人間ジェスチャー認識モデル (ジェスチャー・レベルの認識)。このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用します。このモデルで認識されるジェスチャーのリストを確認するには、Jester データセット仕様を参照してください。
このモデルは、一定のフレームレート (8 フレーム) でサンプリングされたフレームのスタックを受け入れ、入力クリップに対して予測を生成します。
仕様¶
メトリック |
値 |
---|---|
トップ 1 の精度 (連続ジェスター) |
93.58% |
GFlops |
4.2269 |
MParams |
4.1128 |
ソース・フレームワーク |
PyTorch* |
入力¶
元のモデル¶
形状: 1, 3, 8, 224, 224
、形式: B, C, T, H, W
の画像のバッチ。
説明:
B
- バッチサイズC
- チャネルT
- シーケンス長H
- 高さW
- 幅
チャネルの順番は RGB
です。
変換されたモデル¶
形状: 1, 3, 8, 224, 224
、形式: B, C, T, H, W
の画像のバッチ。
説明:
B
- バッチサイズC
- チャネルT
- シーケンス長H
- 高さW
- 幅
チャネルの順番は RGB
です。
出力¶
モデルは、形状 B, 27
のテンソルを出力します。各行は、実行されたジェスター・ジェスチャーのロジットベクトルです。
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>