text-recognition-0005 (複合)¶
ユースケースと概要説明¶
テキストの検出と認識を同時に行うテキスト・スポッティング複合モデルです。このモデルは、スペースで区切られた記号シーケンスを検出し、辞書なしで認識を実行します。このモデルは、アテンション・ベースのテキスト認識ヘッドを備えた Mask-RCNN フレームワークの上に構築されています。
アルファベットは英数字です: abcdefghijklmnopqrstuvwxyz0123456789
。
例¶
複合モデル仕様¶
メトリック |
値 |
---|---|
単語スポッティング hmean ICDAR2015、辞書なし |
71.29% |
ソース・フレームワーク |
PyTorch* |
Hmean ワード・スポッティングは、Incidental Scene Text (ICDAR2015) チャレンジに従って定義および測定されます。
検出器モデル仕様¶
text-spotting-0005-detector モデルは、ResNet50 バックボーンとテキスト機能出力を備えた Mask-RCNN ベースのテキスト検出器です。
メトリック |
値 |
---|---|
GFlops |
184.495 |
MParams |
27.010 |
入力¶
画像、名前: image
、形状: 1, 3, 768, 1280
、形式: 1, C, H, W
。
説明:
C
- チャネル数H
- 画像の髙さW
- 画像の幅
予想されるチャネルの順序は BGR
です。
出力¶
モデルには動的形状の出力があります。
名前:
labels
、形状:-1
。検出されたすべてのオブジェクトの連続する整数のクラス ID。0
はテキストクラスを表します。名前:
boxes
、形状:-1, 5
。(top_left_x、top_left_y、bottom_right_x、bottom_right_y、confidence) 形式の、検出されたオブジェクト周囲の境界ボックス。名前:
masks
、形状:-1, 28, 28
。すべての出力境界ボックスのテキストのセグメント化マスク。名前:
text_features
、形状-1, 64, 28, 28
。テキスト認識ヘッドに供給されるテキストの特徴。
エンコーダー・モデル仕様¶
text-spotting-0005-recognizer-encoder モデルは、テキスト認識ヘッドの完全畳み込みエンコーダーです。
メトリック |
値 |
---|---|
GFlops |
2.082 |
MParams |
1.328 |
入力¶
名前: input
、形状: 1, 64, 28, 28
。検出部から得られるテキスト認識特徴。
出力¶
名前: output
、形状: 1, 256, 28, 28
。エンコードされたテキスト認識特徴。
デコーダーモデル仕様¶
メトリック |
値 |
---|---|
GFlops |
0.106 |
MParams |
0.283 |
入力¶
名前:
encoder_outputs
、形状:1, (28*28), 256
。エンコードされたテキスト認識特徴。名前:
prev_symbol
、形状:1
。以前に生成されたシンボルのアルファベットのインデックス。名前:
prev_hidden
、形状:1, 1, 256
。GRU の以前の非表示状態。
出力¶
名前:
output
、形状:1, 38
。エンコードされたテキスト認識特徴。2 から始まるインデックスはアルファベット記号に対応します。0 と 1 は、それぞれ特別なシーケンスの開始記号と終了記号です。名前:
hidden
、形状:1, 1, 256
。GRU の現在の非表示状態。
トレーニング・パイプライン¶
OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。