t2t-vit-14

ユースケースと概要説明

t2t-vit-14 モデルは、画像分類タスク用に ImageNet データセットで事前トレーニングされた Tokens-To-Token Vision Transformer(T2T-ViT) のバリアントです。T2T-ViT はイメージを段階的にトークン化する、効率的なバックボーンを備えています。T2T-ViT は 2 つの主要コンポーネントで構成されます。1) 画像のローカル構造情報をモデル化し、トークンの長さを段階的に短縮するレイヤーごとの “トークンからトークンへのモジュール”。2) T2T モジュールからのトークンに対する注目関係を引き出す効率的な “T2T-ViT バックボーン”。このモデルには、384 の隠れ次元を持つ T2T-ViT バックボーンに 14 のトランスレイヤーがあります。

詳細については、論文およびリポジトリーで説明されています。

仕様

メトリック

タイプ

分類

GFlops

9.5451

MParams

21.5498

ソース・フレームワーク

PyTorch*

精度

メトリック

上位 1

81.44%

上位 5

95.66%

入力

元のモデル

画像、名前: image、形状: 1, 3, 224, 224、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序: RGB。平均値: [123.675, 116.28, 103.53]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル

画像、名前: image、形状: 1, 3, 224, 224、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序: BGR

出力

元のモデル

ImageNet クラスに基づくオブジェクト分類子、名前: probs、形状: 1, 1000、出力データ形式: B, C

説明:

  • B - バッチサイズ

  • C - ロジット形式のすべてのデータセット・クラスの確率ベクトル。

変換されたモデル

ImageNet クラスに基づくオブジェクト分類子、名前: probs、形状: 1, 1000、出力データ形式: B, C

説明:

  • B - バッチサイズ

  • C - ロジット形式のすべてのデータセット・クラスの確率ベクトル。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。