handwritten-score-recognition-0003¶
ユースケースと概要説明¶
これはテキスト認識シナリオのためのネットワークです。VGG16 のようなバックボーンと双方向 LSTM エンコーダー/デコーダーで構成されます。ネットワークは、<digit>
または <digit>.<digit>
(例: 4
や 3.5
) のいずれかの形式を持つ学校のマークを認識できます。
例¶
-> Mark2.5
仕様¶
メトリック |
値 |
---|---|
精度 (内部のテストセット) |
98.83% |
テキスト位置の要件 |
整列したクロップ |
GFlops |
0.792 |
MParams |
5.555 |
ソース・フレームワーク |
TensorFlow* |
入力¶
画像、名前: Placeholder
、形状: 1, 32, 64, 1
、形式: B, H, W, C
。
説明:
B
- バッチサイズH
- 画像の髙さW
- 画像の幅C
- チャネル数
ソース画像は、グレースケールに変換されて検出されたテキストに合わせてトリミングされる必要があることに注意してください。
出力¶
ブロブの最終出力は、形状 316, 1, 13
のテンソルを W, B, L
形式です。
説明:
W
- 出力シーケンス長B
- バッチサイズL
- 英数字全体の信頼度分布:"0123456789._#"
、ここで # は CTC デコード・アルゴリズム用の特殊な空白文字であり、文字'_'
はすべての非数値記号を置き換えます。
ネットワーク出力は、CTC Greedy Decoder または CTC Beam Search デコーダーによってデコードできます。
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。