i3d-rgb-tf#
ユースケースと概要説明#
i3d-rgb-tf
は、Quo Vadis、アクション認識? 新しいモデルと動力学データセット の論文に基づいたビデオ分類モデルです。このモデルは RGB 入力ストリームを使用し、Kinetics-400 データセットでトレーニングされます。さらに、このモデルには、ImageNet データセットで事前トレーニングされた Inception v1 モデルからの初期値が含まれています。
以前はチェックポイント・ファイルとして再配布されていましたが、フリーズされたグラフに変換されました。
変換#
元のリポジトリーを複製またはダウンロードします:
git clone https://github.com/deepmind/kinetics-i3d.git
(オプション) 変換がテストされたコミットをチェックアウトします:
git checkout 0667e88
前提条件をインストールし、以下でテストします:
tensorflow==1.11 tensorflow-probability==0.4.0 dm-sonnet==1.26
<omz_dir>/models/public/i3d-rgb-tf/freeze.py
スクリプトを元のリポジトリーのルート・ディレクトリーにコピーして実行します:python freeze.py
仕様#
メトリック |
値 |
---|---|
タイプ |
アクション認識 |
GFLOPs |
278.981 |
MParams |
12.69 |
ソース・フレームワーク |
TensorFlow* |
精度#
精度検証は、Kinetics-400 データセットの検証部分で実行されます。サブセットは、このデータセットからランダムに選択された 400 のビデオで構成されます。
メトリック |
変換されたモデル |
変換されたモデル (サブセット 400) |
---|---|---|
上位 1 |
65.96% |
64.83% |
上位 5 |
86.01% |
84.58% |
入力#
元のモデル#
ビデオクリップ、名前 - Placeholder
、形状 - 1, 79, 224, 224, 3
、形式 - B, D, H, W, C
、ここで:
B
- バッチサイズD
- 入力クリップの期間H
- 髙さW
- 幅C
- チャネル
チャネルの順番は RGB
です。平均値 - 127.5、スケール値 - 127.5。
変換されたモデル#
ビデオクリップ、名前 - Placeholder
、形状 - 1, 79, 224, 224, 3
、形式 - B, D, H, W, C
、ここで:
B
- バッチサイズD
- 入力クリップの期間H
- 髙さW
- 幅C
- チャネル
チャネルの順番は RGB
です。
出力#
元のモデル#
Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax
、形状 - 1, 400
、形式 - B, C
、ここで:
B
- バッチサイズC
- [0, 1] の範囲の各クラスの予測確率
変換されたモデル#
Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax
、形状 - 1, 400
、形式 - B, C
、ここで:
B
- バッチサイズC
- [0, 1] の範囲の各クラスの予測確率
モデルをダウンロードして OpenVINO™ IR 形式に変換#
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt
で確認できます。