text-recognition-0015 (複合)

ユースケースと概要説明

シーンテキストを認識するテキスト認識複合モデルです。このモデルは、事前定義された英数字記号のセット (大文字と小文字を区別) を使用して単語を予測します。このモデルは、追加の 2D アテンション・ベースのテキスト認識ヘッドを備えた ResNeXt-101 バックボーン上に構築されています。

入力データの例

出力の例

openvino

複合モデル仕様

メトリック

ICDAR13 の英数字サブセットの精度

0.8995

ICDAR03 の英数字サブセットの精度

0.9389

ICDAR15 の英数字サブセットの精度

0.7355

ICDAR13 の英数字サブセットの精度

0.8764

IIIT5K の英数字サブセットの精度

0.8413

テキスト位置の要件

整列したクロップ

ソース・フレームワーク

PyTorch*

上記の精度は、大文字と小文字を区別しないモードで計算されます (つまり、GT テキストと予測テキストはすべて小文字にキャストされます)。

エンコーダー・モデル仕様

text-recognition-0015-encoder モデルは、テキスト認識の畳み込みエンコーダー部分を備えた ResNeXt-101 に似たバックボーンです。

メトリック

GFlops

12.4

MParams

398

入力

画像、名前: imgs、形状: 1, 1, 64, 256、形式: 1, C, H, W

説明:

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

出力

  1. 名前: decoder_hidden、形状: 1, 1, 1024。GRU セルの初期コンテキスト状態。

  2. 名前: features、形状: 1, 16, 1024。テキスト認識ヘッドのエンコーダー部分の機能。

デコーダーモデル仕様

text-recognition-15-decoder モデルは、2D アテンション・モジュールを備えた GRU ベースのデコーダーです。

メトリック

GFlops

0.03

MParams

4.33

入力

  1. 名前: decoder_input、形状: 1。前回の予測文字。

  2. 名前: features、形状: 1, 16, 1024。エンコードされた機能。

  3. 名前: hidden、形状: 1, 1, 1024。デコーダーの現在の状態。

出力

  1. 名前: decoder_hidden、形状: 1, 1, 1024。LSTM セルの現在のコンテキスト状態。

  2. 名前: decoder_output、形状: 1, 66。すべての文字の分類信頼スコアは [0, 1] の範囲にあります。

テキスト検出のデモ

モデルは、テキスト検出 C++ デモでサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。

-tr_pt_first
-m_tr_ss "?0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
-tr_o_blb_nm "decoder_output"
-tr_composite
-dt simple -lower

詳細は、デモのドキュメントを参照してください。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。