asl-recognition-0004#

ユースケースと概要説明#

アメリカ手話 (ASL) 認識シナリオ (単語レベルの認識) の人間のジェスチャー認識モデル。このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用します。このモデルで認識されるジェスチャーのリストを確認するには、MS-ASL-100 データセット仕様を参照してください。

このモデルは、一定のフレームレート (15 FPS) でサンプリングされたフレームのスタックを受け入れ、入力クリップに対して予測を生成します。

例#

仕様#

メトリック	値
トップ 1 精度 (MS-ASL-100)	0.847
GFlops	6.660
MParams	4.133
ソース・フレームワーク	PyTorch*

入力#

画像シーケンス、名前: input、形状: 1, 3, 16, 224, 224、形式: B, C, T, H, W、ここで:

B - バッチサイズ
C - チャネル数
T - 入力クリップの期間
H - 画像の髙さ
W - 画像の幅

出力#

モデルは、形状 1, 100 のテンソルを B, L 形式で出力します。ここで:

B - バッチサイズ
L - 実行された各 ASL ジェスチャーのロジットベクトル

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

法務上の注意書き#

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。