text-recognition-0014

ユースケースと概要説明

これはテキスト認識シナリオのためのネットワークです。ResNext101 のようなバックボーン (ステージ-1-2) と双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、大文字と小文字を区別しない英数字テキスト (36 個の固有の記号) を認識できます。

-> openvino

仕様

メトリック

ICDAR13 の英数字サブセットの精度

0.8887

ICDAR03 の英数字サブセットの精度

0.9077

ICDAR15 の英数字サブセットの精度

0.6908

ICDAR13 の英数字サブセットの精度

0.83

IIIT5K の英数字サブセットの精度

0.8157

テキスト位置の要件

整列したクロップ

GFlops

0.2726

MParams

1.4187

ソース・フレームワーク

PyTorch*

入力

画像、名前: imgs、形状: 1, 1, 32, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。

出力

モデルは、形状: 16, 1, 37、形式: W, B, L の最終出力ブロブを logits という名前で出力します。
説明:

  • W - 出力シーケンス長

  • B - バッチサイズ

  • L - 英数字全体の信頼度分布 シンボル: #0123456789abcdefghijklmnopqrstuvwxyz、ここで、# は CTC デコード・アルゴリズム用の特殊な空白文字。

ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。

テキスト検出のデモ

モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。

  -m_tr_ss "0123456789abcdefghijklmnopqrstuvwxyz", note special symbol `#` should not be used.
  -tr_pt_first
  -tr_o_blb_nm "logits"

詳細は、デモのドキュメントを参照してください。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。