vitstr-small-patch16-224¶
ユースケースと概要説明¶
vitstr-small-patch16-224
モデルは、ViTSTR モデルの small
バージョンです。ViTSTR は、事前トレーニングされたビジョン・トランスフォーマー (ViT) を使用してシーンテキスト認識 (ViTSTR) を行う単純な単一ステージモデルです。モデルのスモールバージョンは、埋め込みサイズが 384、ヘッド数が 6 です。モデルは、英数字の大文字と小文字テキストと特殊文字を認識できます。
仕様¶
メトリック |
値 |
---|---|
タイプ |
シーンテキスト認識 |
GFLOPs |
9.1544 |
MParams |
21.5061 |
ソース・フレームワーク |
PyTorch* |
精度¶
一般的なシーンテキスト認識ベンチマークの英数字サブセットが使用されます。便宜上、データセットのサイズを確認できます。ここでは、不規則な (任意の向き、遠近法、または曲線) テキストを含まない ICDAR15 英数字サブセットを使用していることに注意してください。詳細については、セクション 4.1 を参照してください。報告されたすべての結果は、辞書を使用せずに生成されています。
データセット |
精度 |
データセットのサイズ |
---|---|---|
ICDAR-03 |
93.43% |
867 |
ICDAR-13 |
90.34% |
1015 |
ICDAR-15 |
75.04% |
1811 |
SVT |
85.47% |
647 |
IIIT5K |
87.07% |
3000 |
追加のモデル属性へのパスを指定するには、accuracy_check [...] --model_attributes <path_to_folder_with_downloaded_model>
を使用します。path_to_folder_with_downloaded_model
は、現在のモデルがモデル・ダウンローダーによってダウンロードされるフォルダーへのパスです。
入力¶
元のモデル¶
画像、名前: image
、形状: 1, 1, 224, 224
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。
スケール値 - [255]。
変換されたモデル¶
画像、名前: image
、形状: 1, 1, 224, 224
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。
出力¶
元のモデル¶
出力テンソル、名前: logits
、形状: 1, 25, 96
、形式: B, W, L
。
説明:
B
- バッチサイズW
- 出力シーケンス長-
L
- [GO] 全体の信頼度分布 - デコーダー用の特別な開始トークン、[s] - デコーダーおよび文字の特殊なシーケンス終了文字。同梱のファイルvocab.txt
にリストされています。
ネットワーク出力のデコードプロセスは非常に簡単です。L
次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence
シンボルの最初のエントリーで結果のフレーズをスライスします。
変換されたモデル¶
出力テンソル、名前: logits
、形状: 1, 25, 96
、形式: B, W, L
。
説明:
B
- バッチサイズW
- 出力シーケンス長-
L
- [GO] 全体の信頼度分布 - デコーダー用の特別な開始トークン、[s] - デコーダーおよび文字の特殊なシーケンス終了文字。同梱のファイルvocab.txt
にリストされています。
ネットワーク出力のデコードプロセスは非常に簡単です。L
次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence
シンボルの最初のエントリーで結果のフレーズをスライスします。
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt
で確認できます。