i3d-rgb-tf¶
ユースケースと概要説明¶
i3d-rgb-tf
は、"Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset" の論文に基づいたビデオ分類モデルです。このモデルは RGB 入力ストリームを使用し、Kinetics-400 データセットでトレーニングされます。さらに、このモデルには、ImageNet データセットで事前トレーニングされた Inception v1 モデルからの初期値が含まれています。
以前はチェックポイント・ファイルとして再配布されていましたが、フリーズされたグラフに変換されました。
変換¶
-
元のリポジトリーを複製またはダウンロードします。
git clone https://github.com/deepmind/kinetics-i3d.git
-
(オプション) 変換がテストされたコミットをチェックアウトします。
git checkout 0667e88
-
前提条件をインストールし、以下でテストします。
tensorflow==1.11 tensorflow-probability==0.4.0 dm-sonnet==1.26
-
<omz_dir>/models/public/i3d-rgb-tf/freeze.py
スクリプトを元のリポジトリーのルート・ディレクトリーにコピーして実行します。python freeze.py
仕様¶
メトリック |
値 |
---|---|
タイプ |
行動認識 |
GFLOPs |
278.981 |
MParams |
12.69 |
ソース・フレームワーク |
TensorFlow* |
精度¶
精度検証は、Kinetics-400 データセットの検証部分で実行されます。サブセットは、このデータセットからランダムに選択された 400 のビデオで構成されます。
メトリック |
変換されたモデル |
変換されたモデル (サブセット 400) |
---|---|---|
上位 1 |
65.96% |
64.83% |
上位 5 |
86.01% |
84.58% |
入力¶
元のモデル¶
ビデオクリップ、名前 - Placeholder
、形状 - 1, 79, 224, 224, 3
、形式 - B, D, H, W, C
。
説明:
B
- バッチサイズD
- 入力クリップの期間H
- 高さW
- 幅C
- チャネル
チャネルの順番は RGB
です。平均値 - 127.5、スケール値 - 127.5。
変換されたモデル¶
ビデオクリップ、名前 - Placeholder
、形状 - 1, 79, 224, 224, 3
、形式 - B, D, H, W, C
。
説明:
B
- バッチサイズD
- 入力クリップの期間H
- 高さW
- 幅C
- チャネル
チャネルの順番は RGB
です。
出力¶
元のモデル¶
Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax
、形状 - 1, 400
、形式 - B, C
。
説明:
B
- バッチサイズC
- [0, 1] の範囲の各クラスの予測確率
変換されたモデル¶
Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax
、形状 - 1, 400
、形式 - B, C
。
説明:
B
- バッチサイズC
- [0, 1] の範囲の各クラスの予測確率
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt
で確認できます。