driver-action-recognition-adas-0002 (複合)

ユースケースと概要説明

これは、ドライバー監視ユースケース向けの行動認識複合モデルであり、エンコーダー部分とデコーダー部分で構成されます。エンコーダー・モデルは、MobileNetV2 エンコーダーを使用した Video Transformer アプローチを使用します。飲酒、髪を整えるまたは化粧をする、ラジオの操作、後ろに手を伸ばす、安全運転、電話で話す、メールを送るなどの行動を認識できます。認識されるアクションの完全なリストは、<omz_dir>/demos/action_recognition_demo/python/driver_actions.txt にあります。

複合モデル仕様

メトリック

ソース・フレームワーク

PyTorch*

エンコーダー・モデル仕様

driver-action-recognition-adas-0002-encoder モデルはビデオフレームを受け入れ、埋め込みを生成します。ビデオフレームは、約 1 秒のフラグメントをカバーするようにサンプリングする必要があります (つまり、30fps ビデオでは 2 フレームごとにスキップします)。

メトリック

GFlops

0.676

MParams

2.863

入力

画像、名前: 0、形状: 1, 3, 224, 224、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序は BGR です。

出力

モデルは、処理されたフレームの埋め込みを表す、形状 1, 512, 1, 1 のテンソルを出力します。

デコーダーモデル仕様

driver-action-recognition-adas-0002-decoder モデルは、driver-action-recognition-adas-0002-encoder によって計算されたフレーム埋め込みのスタックを受け入れ、入力ビデオに対して予測を生成します。

メトリック

GFlops

0.147

MParams

4.205

入力

埋め込みイメージ、名前: 0、形状: B, T, C、形式の 1, 16, 512

説明:

  • B - バッチサイズ

  • T - 入力クリップの期間

  • C - 埋め込み次元

出力

モデルは、形状 1, 9 のテンソルを出力します。各行は、実行されたアクションのロジットベクトルです。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。