text-recognition-0012#
ユースケースと概要説明#
これはテキスト認識シナリオのためのネットワークです。VGG16 のようなバックボーンと双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、大文字と小文字を区別しない英数字テキスト (36 個の固有の記号) を認識できます。
例#
-> openvino
仕様#
メトリック |
値 |
---|---|
ICDAR13 の英数字サブセットの精度 |
0.8818 |
テキスト位置の要件 |
整列したクロップ |
GFlops |
1.485 |
MParams |
5.568 |
ソース・フレームワーク |
TensorFlow* |
入力#
画像、名前: Placeholder
、形状: 1, 32, 120, 1
、形式: B, H, W, C
、ここで:
B
- バッチサイズH
- 画像の髙さW
- 画像の幅C
- チャネル数
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。
出力#
モデルは、形状 30, 1, 37
のテンソルを W, B, L
形式で出力します。ここで:
W
- 出力シーケンス長B
- バッチサイズL
- 英数字全体の信頼度分布 シンボル:0123456789abcdefghijklmnopqrstuvwxyz#
、ここで、# は CTC デコード・アルゴリズム用の特殊な空白文字。
ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。