i3d-rgb-tf#

ユースケースと概要説明#

i3d-rgb-tf は、Quo Vadis、アクション認識? 新しいモデルと動力学データセットの論文に基づいたビデオ分類モデルです。このモデルは RGB 入力ストリームを使用し、Kinetics-400 データセットでトレーニングされます。さらに、このモデルには、ImageNet データセットで事前トレーニングされた Inception v1 モデルからの初期値が含まれています。

以前はチェックポイント・ファイルとして再配布されていましたが、フリーズされたグラフに変換されました。

変換#

元のリポジトリーを複製またはダウンロードします:
```
git clone https://github.com/deepmind/kinetics-i3d.git
```
(オプション) 変換がテストされたコミットをチェックアウトします:
```
git checkout 0667e88
```

前提条件をインストールし、以下でテストします:

tensorflow==1.11 
tensorflow-probability==0.4.0 
dm-sonnet==1.26

<omz_dir>/models/public/i3d-rgb-tf/freeze.py スクリプトを元のリポジトリーのルート・ディレクトリーにコピーして実行します:
```
python freeze.py
```

仕様#

メトリック	値
タイプ	アクション認識
GFLOPs	278.981
MParams	12.69
ソース・フレームワーク	TensorFlow*

精度#

精度検証は、Kinetics-400 データセットの検証部分で実行されます。サブセットは、このデータセットからランダムに選択された 400 のビデオで構成されます。

メトリック	変換されたモデル	変換されたモデル (サブセット 400)
上位 1	65.96%	64.83%
上位 5	86.01%	84.58%

入力#

元のモデル#

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C、ここで:

B - バッチサイズ
D - 入力クリップの期間
H - 髙さ
W - 幅
C - チャネル

チャネルの順番は RGB です。平均値 - 127.5、スケール値 - 127.5。

変換されたモデル#

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C、ここで:

B - バッチサイズ
D - 入力クリップの期間
H - 髙さ
W - 幅
C - チャネル

チャネルの順番は RGB です。

出力#

元のモデル#

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C、ここで:

B - バッチサイズ
C - [0, 1] の範囲の各クラスの予測確率

変換されたモデル#

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C、ここで:

B - バッチサイズ
C - [0, 1] の範囲の各クラスの予測確率

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

アクション認識の Python* デモ

法務上の注意書き#

元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt で確認できます。