text-recognition-resnet-fc

ユースケースと概要説明

text-recognition-resnet-fc は、全結合のテキスト認識ヘッドを備えた ResNet に基づく、シンプルで事前のシーンテキスト認識モデルです。PyTorch* フレームワークでのソース実装はこちらにあります。モデルは英数字テキストを認識できます。

仕様

メトリック

タイプ

シーンテキスト認識

GFLOPs

40.3704

MParams

177.9668

ソース・フレームワーク

PyTorch*

精度

一般的なシーンテキスト認識ベンチマークの英数字サブセットが使用されます。便宜上、データセットのサイズを確認できます。ここでは、不規則な (任意の向き、遠近法、または曲線) テキストを含まない ICDAR15 英数字サブセットを使用していることに注意してください。詳細については、セクション 4.1 を参照してください。報告されたすべての結果は、辞書を使用せずに生成されています。

データセット

精度

データセットのサイズ

ICDAR-03

92.96%

867

ICDAR-13

90.44%

1015

ICDAR-15

77.58%

1811

SVT

88.56%

647

IIIT5K

88.83%

3000

入力

画像、名前: input、形状: 1, 1, 32, 100、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。平均値: [127.5、127.5、127.5]、各チャネルのスケール係数: 127.5

出力

出力テンソル、名前: output、形状: 1, 26, 37、形式: B, W, L

説明:

  • W - 出力シーケンス長

  • B - バッチサイズ

  • L - 英数字全体の信頼度分布 シンボル: [s]0123456789abcdefghijklmnopqrstuvwxyz、ここで、[s] はデコーダーの特別なシーケンスの終了文字です。

ネットワーク出力のデコードプロセスは非常に簡単です。L 次元の argmax を取得し、インデックスを文字に変換し、end-of-sequence の最初のエントリーで結果のフレーズをスライスします。

テキスト検出のデモ

このモデルは、テキスト検出 C++ デモ (<omz_dir>/demos/text_detection_demo/cpp/main.cpp) によってサポートされています。デモでこのモデルを使用するには、ユーザーは次のオプションを渡す必要があります。

  -tr_pt_first
  -dt "simple"

詳細は、デモのドキュメントを参照してください。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。