common-sign-language-0002¶
ユースケースと概要説明¶
共通手話言語ジェスチャー認識シナリオ向けのジェスチャー認識モデル。このモデルは、12 の一般的な片手ジェスチャーをサポートしています。
数字: 0、1、2、3、4、5
2 本の指を上/下/左/右にスライド
親指を立てる/下げる
このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用し、一定のフレームレート (15FPS) でサンプリングされたフレームのスタック (8 フレーム) を受け入れ、入力クリップの予測を生成します。
仕様¶
メトリック |
値 |
---|---|
トップ 1 の精度 (連続 CSL) |
98.00% |
GFlops |
4.2269 |
MParams |
4.1128 |
ソース・フレームワーク |
PyTorch* |
入力¶
画像シーケンス、名前: input
、形状: 1, 3, 8, 224, 224
、形式: B, C, T, H, W
。
説明:
B
- バッチサイズC
- チャネル数T
- 入力クリップの期間H
- 画像の髙さW
- 画像の幅
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。