text-recognition-0014#
ユースケースと概要説明#
これはテキスト認識シナリオのためのネットワークです。ResNext101 のようなバックボーン (ステージ-1-2) と双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、大文字と小文字を区別しない英数字テキスト (36 個の固有の記号) を認識できます。
例#
-> openvino
仕様#
メトリック |
値 |
---|---|
ICDAR13 の英数字サブセットの精度 |
0.8887 |
ICDAR03 の英数字サブセットの精度 |
0.9077 |
ICDAR15 の英数字サブセットの精度 |
0.6908 |
ICDAR13 の英数字サブセットの精度 |
0.83 |
IIIT5K の英数字サブセットの精度 |
0.8157 |
テキスト位置の要件 |
整列したクロップ |
GFlops |
0.2726 |
MParams |
1.4187 |
ソース・フレームワーク |
PyTorch* |
入力#
画像、名前: imgs
、形状: 1, 1, 32, 128
、形式: B, C, H, W
、ここで:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。
出力#
モデルは、形状: 16, 1, 37
、形式: W, B, L
の最終出力ブロブを logits
という名前で出力します。ここで:
W
- 出力シーケンス長B
- バッチサイズL
- 英数字全体の信頼度分布 シンボル:#0123456789abcdefghijklmnopqrstuvwxyz
、ここで、# は CTC デコード・アルゴリズム用の特殊な空白文字。
ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。
テキスト検出のデモ#
モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります:
-m_tr_ss "0123456789abcdefghijklmnopqrstuvwxyz"、特殊記号 `#` は使用しないでください。-tr_pt_first -tr_o_blb_nm "logits"
詳細は、デモのドキュメントを参照してください。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。