driver-action-recognition-adas-0002 (複合)¶
ユースケースと概要説明¶
これは、ドライバー監視ユースケース向けの行動認識複合モデルであり、エンコーダー部分とデコーダー部分で構成されます。エンコーダー・モデルは、MobileNetV2 エンコーダーを使用した Video Transformer アプローチを使用します。飲酒、髪を整えるまたは化粧をする、ラジオの操作、後ろに手を伸ばす、安全運転、電話で話す、メールを送るなどの行動を認識できます。認識されるアクションの完全なリストは、<omz_dir>/demos/action_recognition_demo/python/driver_actions.txt
にあります。
例¶
複合モデル仕様¶
メトリック |
値 |
---|---|
ソース・フレームワーク |
PyTorch* |
エンコーダー・モデル仕様¶
driver-action-recognition-adas-0002-encoder モデルはビデオフレームを受け入れ、埋め込みを生成します。ビデオフレームは、約 1 秒のフラグメントをカバーするようにサンプリングする必要があります (つまり、30fps ビデオでは 2 フレームごとにスキップします)。
メトリック |
値 |
---|---|
GFlops |
0.676 |
MParams |
2.863 |
入力¶
画像、名前: 0
、形状: 1, 3, 224, 224
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
予想される色の順序は BGR
です。
出力¶
モデルは、処理されたフレームの埋め込みを表す、形状 1, 512, 1, 1
のテンソルを出力します。
デコーダーモデル仕様¶
driver-action-recognition-adas-0002-decoder モデルは、driver-action-recognition-adas-0002-encoder によって計算されたフレーム埋め込みのスタックを受け入れ、入力ビデオに対して予測を生成します。
メトリック |
値 |
---|---|
GFlops |
0.147 |
MParams |
4.205 |
出力¶
モデルは、形状 1, 9
のテンソルを出力します。各行は、実行されたアクションのロジットベクトルです。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。