text-recognition-resnet-fc¶
ユースケースと概要説明¶
text-recognition-resnet-fc
は、全結合のテキスト認識ヘッドを備えた ResNet に基づく、シンプルで事前のシーンテキスト認識モデルです。PyTorch* フレームワークでのソース実装はこちらにあります。モデルは英数字テキストを認識できます。
仕様¶
メトリック |
値 |
---|---|
タイプ |
シーンテキスト認識 |
GFLOPs |
40.3704 |
MParams |
177.9668 |
ソース・フレームワーク |
PyTorch* |
精度¶
一般的なシーンテキスト認識ベンチマークの英数字サブセットが使用されます。便宜上、データセットのサイズを確認できます。ここでは、不規則な (任意の向き、遠近法、または曲線) テキストを含まない ICDAR15 英数字サブセットを使用していることに注意してください。詳細については、セクション 4.1 を参照してください。報告されたすべての結果は、辞書を使用せずに生成されています。
データセット |
精度 |
データセットのサイズ |
---|---|---|
ICDAR-03 |
92.96% |
867 |
ICDAR-13 |
90.44% |
1015 |
ICDAR-15 |
77.58% |
1811 |
SVT |
88.56% |
647 |
IIIT5K |
88.83% |
3000 |
入力¶
画像、名前: input
、形状: 1, 1, 32, 100
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。平均値: [127.5、127.5、127.5]、各チャネルのスケール係数: 127.5
出力¶
出力テンソル、名前: output
、形状: 1, 26, 37
、形式: B, W, L
。
説明:
W
- 出力シーケンス長B
- バッチサイズ-
L
- 英数字全体の信頼度分布 シンボル:[s]0123456789abcdefghijklmnopqrstuvwxyz
、ここで、[s] はデコーダーの特別なシーケンスの終了文字です。
ネットワーク出力のデコードプロセスは非常に簡単です。L
次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence
の最初のエントリーで結果のフレーズをスライスします。
テキスト検出のデモ¶
このモデルは、テキスト検出 C++ デモ (<omz_dir>/demos/text_detection_demo/cpp/main.cpp
) によってサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。
-tr_pt_first
-dt "simple"
詳細は、デモのドキュメントを参照してください。
法務上の注意書き¶
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt
で確認できます。
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。