text-recognition-0016 (複合)

ユースケースと概要説明

シーンテキストを認識するテキスト認識複合モデルです。このモデルは、事前定義された英数字記号のセット (大文字と小文字を区別しない) を使用して単語を予測します。このモデルは、TPS モジュールと追加の 2D アテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-101 バックボーン上に構築されています。

入力データの例

出力の例

openvino

複合モデル仕様

メトリック

テキスト位置の要件

整列したクロップ

ソース・フレームワーク

PyTorch*

ICDAR13 の英数字サブセットの精度

0.9685

ICDAR03 の英数字サブセットの精度

0.9712

ICDAR15 の英数字サブセットの精度

0.8675

ICDAR13 の英数字サブセットの精度

0.9474

IIIT5K の英数字サブセットの精度

0.9347

エンコーダー・モデル仕様

text-recognition-0016-encoder モデルは、TPS ネットワークとテキスト認識の畳み込みエンコーダー部分を備えた ResNeXt-101 に似たバックボーンです。

メトリック

GFlops

9.27

MParams

88.1

入力

画像、名前: imgs、形状: 1, 1, 64, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

出力

  1. 名前: decoder_hidden、形状: 1, 1, 1024。GRU セルの初期コンテキスト状態。

  2. 名前: features、形状: 1, 36, 1024。テキスト認識ヘッドのエンコーダー部分の機能。

デコーダーモデル仕様

text-recognition-0016-decoder モデルは、2D アテンション・モジュールを備えた GRU ベースのデコーダーです。

メトリック

GFlops

0.08

MParams

4.28

入力

  1. 名前: decoder_input、形状: 1。前回の予測文字。

  2. 名前: features、形状: 1, 36, 1024。エンコードされた機能。

  3. 名前: hidden、形状: 1, 1, 1024。デコーダーの現在の状態。

出力

  1. 名前: decoder_hidden、形状: 1, 1, 1024。GRU セルの現在のコンテキスト状態。

  2. 名前: decoder_output、形状: 1, 40。すべての文字の分類信頼スコアは [0, 1] の範囲にあります。

特に、各ステップのデコーダー出力は、このタイムスタンプ上のシンボルの確率分布です。このモデルは、10 桁、26 個の英語アルファベット、および 4 個の特殊記号 (シーケンスの開始記号、シーケンスの終了記号、パッド記号、および不明な記号) の 40 個の記号をサポートします。

注: デモでサポートされているシンボルセットおよびパッドシンボルには、開始シンボルと終了シンボルが渡されません。詳細については、デモセクションのパラメーター -m_tr_ss を参照してください。

テキスト検出のデモ

モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。

-tr_pt_first
-m_tr_ss "?0123456789abcdefghijklmnopqrstuvwxyz"
-tr_o_blb_nm "decoder_output"
-tr_composite
-dt simple -lower

詳細は、デモのドキュメントを参照してください。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。