smartlab-action-recognition-0001 (複合)#

ユースケースと概要説明#

Smartlab アクション認識には、2 つのエンコーダー・モデルと 1 つのデコーダーモデルを含む 3 つのモデルがあります。

これらのモデルは、アクションを予測するために SmartLab データセットで微調整されており、“noise_action”、“put_take” および “adjust_rider” を含む 3 種類のアクションを分類できます。

入力データの例#

出力の例#

put_take アクションを出力

複合モデル仕様#

メトリック

DSI1867 の精度

TODO

ソース・フレームワーク

PyTorch*

エンコーダー・モデルの仕様#

Smartlab-action-recognition-0001-encoder-* には、アクション認識の畳み込みエンコーダー部分を備えた Mobilenet-V2 に類似したバックボーンがあります。

smartlab-action-recognition-0001-encoder-sidesmartlab-action-recognition-0001-encoder-top の 2 つのモデルがあり、構造は同じですが重みが異なります。

メトリック

GFlops

0.611

MParams

3.387

入力#

画像、名前: input_image、形状: 1, 3, 224, 224、形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅 予想される色の順序は BGR です

出力#

  1. 名前: output_feature、形状: 1, 1280。動作認識ヘッドのエンコーダーの特徴。

デコーダーモデル仕様#

smartlab-action-recognition-0001-decoder は、上面図と正面図からの特徴を受け入れ、エンコーダーによって計算され、次のラベルリストにわたるアクションのスコアを予測する完全に接続されたデコーダーパーツです: no_actionnoise_actionadjust_rider

メトリック

GFlops

0.008

MParams

4.099

入力#

  1. 名前: input_feature_1、形状: 1, 1280。トップビューからエンコードされた特徴。

  2. 名前: input_feature_2、形状: 1, 1280。正面から見たエンコードされた特徴。

出力#

  1. 名前: decoder_hidden、形状: 1, 3。形式 [has_action_conf_score, action_1_logits, action_2_logits]

    • has_action_conf_score - アクションフレームの信頼度。>0.5 の場合、アクションが指定されています。

    • action_1_logits - put_take アクションクラスの信頼度

    • action_2_logits - adjust_rider アクションクラスの信頼度

[0, 1] の範囲の分類信頼スコア。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: