text-recognition-0016 (複合)¶
ユースケースと概要説明¶
シーンテキストを認識するテキスト認識複合モデルです。このモデルは、事前定義された英数字記号のセット (大文字と小文字を区別しない) を使用して単語を予測します。このモデルは、TPS モジュールと追加の 2D アテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-101 バックボーン上に構築されています。
入力データの例¶
出力の例¶
openvino
複合モデル仕様¶
メトリック |
値 |
---|---|
テキスト位置の要件 |
整列したクロップ |
ソース・フレームワーク |
PyTorch* |
ICDAR13 の英数字サブセットの精度 |
0.9685 |
ICDAR03 の英数字サブセットの精度 |
0.9712 |
ICDAR15 の英数字サブセットの精度 |
0.8675 |
ICDAR13 の英数字サブセットの精度 |
0.9474 |
IIIT5K の英数字サブセットの精度 |
0.9347 |
エンコーダー・モデル仕様¶
text-recognition-0016-encoder モデルは、TPS ネットワークとテキスト認識の畳み込みエンコーダー部分を備えた ResNeXt-101 に似たバックボーンです。
メトリック |
値 |
---|---|
GFlops |
9.27 |
MParams |
88.1 |
出力¶
名前:
decoder_hidden
、形状:1, 1, 1024
。GRU セルの初期コンテキスト状態。名前:
features
、形状:1, 36, 1024
。テキスト認識ヘッドのエンコーダー部分の機能。
デコーダーモデル仕様¶
text-recognition-0016-decoder モデルは、2D アテンション・モジュールを備えた GRU ベースのデコーダーです。
メトリック |
値 |
---|---|
GFlops |
0.08 |
MParams |
4.28 |
入力¶
名前:
decoder_input
、形状:1
。前回の予測文字。名前:
features
、形状:1, 36, 1024
。エンコードされた機能。名前:
hidden
、形状:1, 1, 1024
。デコーダーの現在の状態。
出力¶
名前:
decoder_hidden
、形状:1, 1, 1024
。GRU セルの現在のコンテキスト状態。名前:
decoder_output
、形状:1, 40
。すべての文字の分類信頼スコアは [0, 1] の範囲にあります。
特に、各ステップのデコーダー出力は、このタイムスタンプ上のシンボルの確率分布です。このモデルは、10 桁、26 個の英語アルファベット、および 4 個の特殊記号 (シーケンスの開始記号、シーケンスの終了記号、パッド記号、および不明な記号) の 40 個の記号をサポートします。
注: デモでサポートされているシンボルセットおよびパッドシンボルには、開始シンボルと終了シンボルが渡されません。詳細については、デモセクションのパラメーター
-m_tr_ss
を参照してください。
テキスト検出のデモ¶
モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。
-tr_pt_first
-m_tr_ss "?0123456789abcdefghijklmnopqrstuvwxyz"
-tr_o_blb_nm "decoder_output"
-tr_composite
-dt simple -lower
詳細は、デモのドキュメントを参照してください。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。