text-recognition-0016 (複合)#

ユースケースと概要説明#

シーンテキストを認識するテキスト認識複合モデルです。このモデルは、事前定義された英数字記号のセット (大文字と小文字を区別しない) を使用して単語を予測します。このモデルは、TPS モジュールと追加の 2D アテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-101 バックボーン上に構築されています。

入力データの例#

出力の例#

openvino

複合モデル仕様#

メトリック	値
テキスト位置の要件	整列したクロップ
ソース・フレームワーク	PyTorch*
ICDAR13 の英数字サブセットの精度	0.9685
ICDAR03 の英数字サブセットの精度	0.9712
ICDAR15 の英数字サブセットの精度	0.8675
ICDAR13 の英数字サブセットの精度	0.9474
IIIT5K の英数字サブセットの精度	0.9347

エンコーダー・モデル仕様#

text-recognition-0016-encoder モデルは、TPS ネットワークとテキスト認識の畳み込みエンコーダー部分を備えた ResNeXt-101 に似たバックボーンです。

メトリック	値
GFlops	9.27
MParams	88.1

入力#

画像、名前: imgs、形状: 1, 1, 64, 256、形式: B, C, H, W、ここで:

B - バッチサイズ
C - チャネル数
H - 画像の髙さ
W - 画像の幅

出力#

名前: decoder_hidden、形状: 1, 1, 1024。GRU セルの初期コンテキスト状態。
名前: features、形状: 1, 36, 1024。テキスト認識ヘッドのエンコーダー部分の機能。

デコーダーモデル仕様#

text-recognition-0016-decoder モデルは、2D アテンション・モジュールを備えた GRU ベースのデコーダーです。

メトリック	値
GFlops	0.08
MParams	4.28

入力#

名前: decoder_input、形状: 1。前回の予測文字。
名前: features、形状: 1, 36, 1024。エンコードされた機能。
名前: hidden、形状: 1, 1, 1024。デコーダーの現在の状態。

出力#

名前: decoder_hidden、形状: 1, 1, 1024。GRU セルの現在のコンテキスト状態。
名前: decoder_output、形状: 1, 40。すべての文字の分類信頼スコアは [0, 1] の範囲にあります。

特に、各ステップのデコーダー出力は、このタイムスタンプ上のシンボルの確率分布です。このモデルは、10 桁、26 個の英語アルファベット、および 4 個の特殊記号 (シーケンスの開始記号、シーケンスの終了記号、パッド記号、および不明な記号) の 40 個の記号をサポートします。

注: デモでサポートされているシンボルセットおよびパッドシンボルには、開始シンボルと終了シンボルが渡されません。詳細については、デモセクションのパラメーター -m_tr_ss を参照してください。

テキスト検出のデモ#

モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります:

-tr_pt_first 
-m_tr_ss "?0123456789abcdefghijklmnopqrstuvwxyz" 
-tr_o_blb_nm "decoder_output" 
-tr_composite 
-dt simple -lower

詳細は、デモのドキュメントを参照してください。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

テキスト検出 C++ デモ

法務上の注意書き#

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。