text-recognition-0005 (複合)

ユースケースと概要説明

テキストの検出と認識を同時に行うテキスト・スポッティング複合モデルです。このモデルは、スペースで区切られた記号シーケンスを検出し、辞書なしで認識を実行します。このモデルは、アテンション・ベースのテキスト認識ヘッドを備えた Mask-RCNN フレームワークの上に構築されています。

アルファベットは英数字です: abcdefghijklmnopqrstuvwxyz0123456789

複合モデル仕様

メトリック

単語スポッティング hmean ICDAR2015、辞書なし

71.29%

ソース・フレームワーク

PyTorch*

Hmean ワード・スポッティングは、Incidental Scene Text (ICDAR2015) チャレンジに従って定義および測定されます。

検出器モデル仕様

text-spotting-0005-detector モデルは、ResNet50 バックボーンとテキスト機能出力を備えた Mask-RCNN ベースのテキスト検出器です。

メトリック

GFlops

184.495

MParams

27.010

入力

画像、名前: image、形状: 1, 3, 768, 1280、形式: 1, C, H, W

説明:

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想されるチャネルの順序は BGR です。

出力

モデルには動的形状の出力があります。

  1. 名前: labels、形状: -1。検出されたすべてのオブジェクトの連続する整数のクラス ID。0 はテキストクラスを表します。

  2. 名前: boxes、形状: -1, 5。(top_left_x、top_left_y、bottom_right_x、bottom_right_y、confidence) 形式の、検出されたオブジェクト周囲の境界ボックス。

  3. 名前: masks、形状: -1, 28, 28。すべての出力境界ボックスのテキストのセグメント化マスク。

  4. 名前: text_features、形状 -1, 64, 28, 28。テキスト認識ヘッドに供給されるテキストの特徴。

エンコーダー・モデル仕様

text-spotting-0005-recognizer-encoder モデルは、テキスト認識ヘッドの完全畳み込みエンコーダーです。

メトリック

GFlops

2.082

MParams

1.328

入力

名前: input、形状: 1, 64, 28, 28。検出部から得られるテキスト認識特徴。

出力

名前: output、形状: 1, 256, 28, 28。エンコードされたテキスト認識特徴。

デコーダーモデル仕様

メトリック

GFlops

0.106

MParams

0.283

入力

  1. 名前: encoder_outputs、形状: 1, (28*28), 256。エンコードされたテキスト認識特徴。

  2. 名前: prev_symbol、形状: 1。以前に生成されたシンボルのアルファベットのインデックス。

  3. 名前: prev_hidden、形状: 1, 1, 256。GRU の以前の非表示状態。

出力

  1. 名前: output、形状: 1, 38。エンコードされたテキスト認識特徴。2 から始まるインデックスはアルファベット記号に対応します。0 と 1 は、それぞれ特別なシーケンスの開始記号と終了記号です。

  2. 名前: hidden、形状: 1, 1, 256。GRU の現在の非表示状態。

トレーニング・パイプライン

OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。