common-sign-language-0002

ユースケースと概要説明

共通手話言語ジェスチャー認識シナリオ向けのジェスチャー認識モデル。このモデルは、12 の一般的な片手ジェスチャーをサポートしています。

  • 数字: 0、1、2、3、4、5

  • 2 本の指を上/下/左/右にスライド

  • 親指を立てる/下げる

このモデルは、MobileNet V3 バックボーンを備えた S3D フレームワークを使用し、一定のフレームレート (15FPS) でサンプリングされたフレームのスタック (8 フレーム) を受け入れ、入力クリップの予測を生成します。

仕様

メトリック

トップ 1 の精度 (連続 CSL)

98.00%

GFlops

4.2269

MParams

4.1128

ソース・フレームワーク

PyTorch*

入力

画像シーケンス、名前: input、形状: 1, 3, 8, 224, 224、形式: B, C, T, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • T - 入力クリップの期間

  • H - 画像の髙さ

  • W - 画像の幅

出力

モデルは、形状 1, 12 のテンソルを B, L 形式で出力します。
説明:

  • B - バッチサイズ

  • L - 行われた各 CSL ジェスチャーのロジットベクトル

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。