text-recognition-0012#

ユースケースと概要説明#

これはテキスト認識シナリオのためのネットワークです。VGG16 のようなバックボーンと双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、大文字と小文字を区別しない英数字テキスト (36 個の固有の記号) を認識できます。

-> openvino

画像、名前: Placeholder、形状: 1, 32, 120, 1、形式: B, H, W, C、ここで:

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。

モデルは、形状 30, 1, 37 のテンソルを W, B, L 形式で出力します。ここで:

W - 出力シーケンス長
B - バッチサイズ
L - 英数字全体の信頼度分布シンボル: 0123456789abcdefghijklmnopqrstuvwxyz#、ここで、# は CTC デコード・アルゴリズム用の特殊な空白文字。

ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。