asl-recognition-0004#
ユースケースと概要説明#
アメリカ手話 (ASL) 認識シナリオ (単語レベルの認識) の人間のジェスチャー認識モデル。このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用します。このモデルで認識されるジェスチャーのリストを確認するには、MS-ASL-100 データセット仕様を参照してください。
このモデルは、一定のフレームレート (15 FPS) でサンプリングされたフレームのスタックを受け入れ、入力クリップに対して予測を生成します。
例#
仕様#
メトリック |
値 |
---|---|
トップ 1 精度 (MS-ASL-100) |
0.847 |
GFlops |
6.660 |
MParams |
4.133 |
ソース・フレームワーク |
PyTorch* |
入力#
画像シーケンス、名前: input
、形状: 1, 3, 16, 224, 224
、形式: B, C, T, H, W
、ここで:
B
- バッチサイズC
- チャネル数T
- 入力クリップの期間H
- 画像の髙さW
- 画像の幅
出力#
モデルは、形状 1, 100
のテンソルを B, L
形式で出力します。ここで:
B
- バッチサイズL
- 実行された各 ASL ジェスチャーのロジットベクトル
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。