asl-recognition-0004

ユースケースと概要説明

アメリカ手話 (ASL) 認識シナリオ (単語レベルの認識) の人間のジェスチャー認識モデル。このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用します。このモデルで認識されるジェスチャーのリストを確認するには、MS-ASL-100 データセット仕様を参照してください。

このモデルは、一定のフレームレート (15FPS) でサンプリングされたフレームのスタックを受け入れ、入力クリップに対して予測を生成します。

仕様

メトリック

トップ 1 精度 (MS-ASL-100)

0.847

GFlops

6.660

MParams

4.133

ソース・フレームワーク

PyTorch*

入力

画像シーケンス、名前: input、形状: 1, 3, 16, 224, 224、形式: B, C, T, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • T - 入力クリップの期間

  • H - 画像の髙さ

  • W - 画像の幅

出力

モデルは、形状 1, 100 のテンソルを B, L 形式で出力します。
説明:

  • B - バッチサイズ

  • L - 行われた各 ASL ジェスチャーのロジットベクトル

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。