text-recognition-0015 (複合)¶
ユースケースと概要説明¶
シーンテキストを認識するテキスト認識複合モデルです。このモデルは、事前定義された英数字記号のセット (大文字と小文字を区別) を使用して単語を予測します。このモデルは、追加の 2D アテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-101 バックボーン上に構築されています。
入力データの例¶
出力の例¶
openvino
複合モデル仕様¶
メトリック |
値 |
---|---|
ICDAR13 の英数字サブセットの精度 |
0.8995 |
ICDAR03 の英数字サブセットの精度 |
0.9389 |
ICDAR15 の英数字サブセットの精度 |
0.7355 |
ICDAR13 の英数字サブセットの精度 |
0.8764 |
IIIT5K の英数字サブセットの精度 |
0.8413 |
テキスト位置の要件 |
整列したクロップ |
ソース・フレームワーク |
PyTorch* |
上記の精度は、大文字と小文字を区別しないモードで計算されます (つまり、GT テキストと予測テキストはすべて小文字にキャストされます)。
エンコーダー・モデル仕様¶
text-recognition-0015-encoder モデルは、テキスト認識の畳み込みエンコーダー部分を備えた ResNeXt-101 に似たバックボーンです。
メトリック |
値 |
---|---|
GFlops |
12.4 |
MParams |
398 |
出力¶
名前:
decoder_hidden
、形状:1, 1, 1024
。GRU セルの初期コンテキスト状態。名前:
features
、形状:1, 16, 1024
。テキスト認識ヘッドのエンコーダー部分の機能。
デコーダーモデル仕様¶
text-recognition-15-decoder モデルは、2D アテンション・モジュールを備えた GRU ベースのデコーダーです。
メトリック |
値 |
---|---|
GFlops |
0.03 |
MParams |
4.33 |
入力¶
名前:
decoder_input
、形状:1
。前回の予測文字。名前:
features
、形状:1, 16, 1024
。エンコードされた機能。名前:
hidden
、形状:1, 1, 1024
。デコーダーの現在の状態。
出力¶
名前:
decoder_hidden
、形状:1, 1, 1024
。LSTM セルの現在のコンテキスト状態。名前:
decoder_output
、形状:1, 66
。すべての文字の分類信頼スコアは [0, 1] の範囲にあります。
テキスト検出のデモ¶
モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。
-tr_pt_first
-m_tr_ss "?0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
-tr_o_blb_nm "decoder_output"
-tr_composite
-dt simple -lower
詳細は、デモのドキュメントを参照してください。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。