i3d-rgb-tf

ユースケースと概要説明

i3d-rgb-tf は、"Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset" の論文に基づいたビデオ分類モデルです。このモデルは RGB 入力ストリームを使用し、Kinetics-400 データセットでトレーニングされます。さらに、このモデルには、ImageNet データセットで事前トレーニングされた Inception v1 モデルからの初期値が含まれています。

以前はチェックポイント・ファイルとして再配布されていましたが、フリーズされたグラフに変換されました。

変換

  1. 元のリポジトリーを複製またはダウンロードします。

    git clone https://github.com/deepmind/kinetics-i3d.git
    
  2. (オプション) 変換がテストされたコミットをチェックアウトします。

    git checkout 0667e88
    
  3. 前提条件をインストールし、以下でテストします。

    tensorflow==1.11
    tensorflow-probability==0.4.0
    dm-sonnet==1.26
    
  4. <omz_dir>/models/public/i3d-rgb-tf/freeze.py スクリプトを元のリポジトリーのルート・ディレクトリーにコピーして実行します。

    python freeze.py
    

仕様

メトリック

タイプ

行動認識

GFLOPs

278.981

MParams

12.69

ソース・フレームワーク

TensorFlow*

精度

精度検証は、Kinetics-400 データセットの検証部分で実行されます。サブセットは、このデータセットからランダムに選択された 400 のビデオで構成されます。

メトリック

変換されたモデル

変換されたモデル (サブセット 400)

上位 1

65.96%

64.83%

上位 5

86.01%

84.58%

入力

元のモデル

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C

説明:

  • B - バッチサイズ

  • D - 入力クリップの期間

  • H - 高さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。平均値 - 127.5、スケール値 - 127.5。

変換されたモデル

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C

説明:

  • B - バッチサイズ

  • D - 入力クリップの期間

  • H - 高さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。

出力

元のモデル

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C

説明:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

変換されたモデル

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C

説明:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。