netvlad-tf#

ユースケースと概要説明#

NetVLAD は、大規模な視覚的位置認識の問題に取り組む CNN アーキテクチャーです。このアーキテクチャーでは、ベース・ネットワークとして VGG 16 と、新しいトレーニング可能な一般化された VLAD (Vector of Locally Aggregated Descriptors) レイヤーである NetVLAD を使用します。これは、ピッツバーグ 250k データセットで事前トレーニングされた位置認識モデルです。

詳細は、リポジトリーこちらをご覧ください。

仕様#

メトリック

タイプ

位置認識

GFLOPs

36.6374

MParams

149.0021

ソース・フレームワーク

TensorFlow*

精度#

精度メトリックは、各セット (トレーニング/テスト/検証) に 10,000 のデータベース 画像を含むピッツバーグ 250,000 データセット (Pitts30k) の小さな検証サブセットで取得されます。画像は入力サイズに合わせてリサイズされました。

メトリック

localization_recall

82.0321%

入力#

元のモデル#

画像、名前: Placeholder、形状: 1, 200, 300, 3、形式: B, H, W, C、ここで:

  • B - バッチサイズ

  • C - チャネル

  • H - 髙さ

  • W - 幅

チャネルの順番は RGB です。

変換されたモデル#

画像、名前: Placeholder、形状: 1, 200, 300, 3、形式: B, H, W, C、ここで:

  • B - バッチサイズ

  • C - チャネル

  • H - 髙さ

  • W - 幅

チャネルの順番は BGR です。

出力#

元のモデル#

浮動小数点埋め込み、名前: vgg16_netvlad_pca/l2_normalize_1、形状: 1, 4096、形式: B, C、ここで:

  • B - バッチサイズ

  • C - 4096 個の浮動小数点値のベクトル、ローカル画像記述子

変換されたモデル#

浮動小数点埋め込み、名前: vgg16_netvlad_pca/l2_normalize_1、形状: 1, 4096、形式: B, C、ここで:

  • B - バッチサイズ

  • C - 4096 個の浮動小数点値のベクトル、ローカル画像記述子

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: