vitstr-small-patch16-224

ユースケースと概要説明

vitstr-small-patch16-224 モデルは、ViTSTR モデルの small バージョンです。ViTSTR は、事前トレーニングされたビジョン・トランスフォーマー (ViT) を使用してシーンテキスト認識 (ViTSTR) を行う単純な単一ステージモデルです。モデルのスモールバージョンは、埋め込みサイズが 384、ヘッド数が 6 です。モデルは、英数字の大文字と小文字テキストと特殊文字を認識できます。

詳細については、論文およびリポジトリーで説明されています。

仕様

メトリック

タイプ

シーンテキスト認識

GFLOPs

9.1544

MParams

21.5061

ソース・フレームワーク

PyTorch*

精度

一般的なシーンテキスト認識ベンチマークの英数字サブセットが使用されます。便宜上、データセットのサイズを確認できます。ここでは、不規則な (任意の向き、遠近法、または曲線) テキストを含まない ICDAR15 英数字サブセットを使用していることに注意してください。詳細については、セクション 4.1 を参照してください。報告されたすべての結果は、辞書を使用せずに生成されています。

データセット

精度

データセットのサイズ

ICDAR-03

93.43%

867

ICDAR-13

90.34%

1015

ICDAR-15

75.04%

1811

SVT

85.47%

647

IIIT5K

87.07%

3000

追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model> を使用します。path_to_folder_with_downloaded_model は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。

入力

元のモデル

画像、名前: image、形状: 1, 1, 224, 224、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。

スケール値 - [255]。

変換されたモデル

画像、名前: image、形状: 1, 1, 224, 224、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。

出力

元のモデル

出力テンソル、名前: logits、形状: 1, 25, 96、形式: B, W, L

説明:

  • B - バッチサイズ

  • W - 出力シーケンス長

  • L - [GO] 全体の信頼度分布 - デコーダー用の特別な開始トークン、[s] - デコーダーおよび文字の特殊なシーケンス終了文字。同梱のファイル vocab.txt にリストされています。

ネットワーク出力のデコードプロセスは非常に簡単です。L 次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence シンボルの最初のエントリーで結果のフレーズをスライスします。

変換されたモデル

出力テンソル、名前: logits、形状: 1, 25, 96、形式: B, W, L

説明:

  • B - バッチサイズ

  • W - 出力シーケンス長

  • L - [GO] 全体の信頼度分布 - デコーダー用の特別な開始トークン、[s] - デコーダーおよび文字の特殊なシーケンス終了文字。同梱のファイル vocab.txt にリストされています。

ネットワーク出力のデコードプロセスは非常に簡単です。L 次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence シンボルの最初のエントリーで結果のフレーズをスライスします。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。