i3d-rgb-tf#

ユースケースと概要説明#

i3d-rgb-tf は、Quo Vadis、アクション認識? 新しいモデルと動力学データセット の論文に基づいたビデオ分類モデルです。このモデルは RGB 入力ストリームを使用し、Kinetics-400 データセットでトレーニングされます。さらに、このモデルには、ImageNet データセットで事前トレーニングされた Inception v1 モデルからの初期値が含まれています。

以前はチェックポイント・ファイルとして再配布されていましたが、フリーズされたグラフに変換されました。

変換#

  1. 元のリポジトリーを複製またはダウンロードします:

    git clone https://github.com/deepmind/kinetics-i3d.git
  2. (オプション) 変換がテストされたコミットをチェックアウトします:

    git checkout 0667e88
  3. 前提条件をインストールし、以下でテストします:

    tensorflow==1.11 
    tensorflow-probability==0.4.0 
    dm-sonnet==1.26
  4. <omz_dir>/models/public/i3d-rgb-tf/freeze.py スクリプトを元のリポジトリーのルート・ディレクトリーにコピーして実行します:

    python freeze.py

仕様#

メトリック

タイプ

アクション認識

GFLOPs

278.981

MParams

12.69

ソース・フレームワーク

TensorFlow*

精度#

精度検証は、Kinetics-400 データセットの検証部分で実行されます。サブセットは、このデータセットからランダムに選択された 400 のビデオで構成されます。

メトリック

変換されたモデル

変換されたモデル (サブセット 400)

上位 1

65.96%

64.83%

上位 5

86.01%

84.58%

入力#

元のモデル#

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C、ここで:

  • B - バッチサイズ

  • D - 入力クリップの期間

  • H - 髙さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。平均値 - 127.5、スケール値 - 127.5。

変換されたモデル#

ビデオクリップ、名前 - Placeholder、形状 - 1, 79, 224, 224, 3、形式 - B, D, H, W, C、ここで:

  • B - バッチサイズ

  • D - 入力クリップの期間

  • H - 髙さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。

出力#

元のモデル#

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C、ここで:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

変換されたモデル#

Kinetics-400 アクションクラスに従ったアクション分類子、名前 - Softmax、形状 - 1, 400、形式 - B, C、ここで:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: