handwritten-score-recognition-0003 — OpenVINO™ ドキュメント

ユースケースと概要説明¶

これはテキスト認識シナリオのためのネットワークです。VGG16 のようなバックボーンと双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、<digit> または <digit>.<digit> (例: 4 や 3.5) のいずれかの形式を持つ学校のマークを認識できます。

例¶

-> Mark2.5

仕様¶

メトリック	値
精度 (内部のテストセット)	98.83%
テキスト位置の要件	整列したクロップ
GFlops	0.792
MParams	5.555
ソース・フレームワーク	TensorFlow*

入力¶

画像、名前: Placeholder、形状: 1, 32, 64, 1、形式: B, H, W, C。

説明:

B - バッチサイズ
H - 画像の髙さ
W - 画像の幅
C - チャネル数

ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。

出力¶

ブロブの最終出力は、形状 316, 1, 13 のテンソルを W, B, L 形式です。
説明:

W - 出力シーケンス長
B - バッチサイズ
L - 英数字全体の信頼度分布: "0123456789._#"、ここで # は CTC デコード・アルゴリズム用の特殊な空白文字であり、文字 '_' はすべての非数値記号を置き換えます。

ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。

デモの使い方¶

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。

テキスト検出 C++ デモ

法務上の注意書き¶

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。

handwritten-score-recognition-0003¶

ユースケースと概要説明¶

例¶

仕様¶

入力¶

出力¶

デモの使い方¶

法務上の注意書き¶