horizontal-text-detection-0001#
ユースケースと概要説明#
MobileNetV2-like のような FCOS アーキテクチャーに基づくテキスト検出器であり、水平テキストを含む屋内/屋外シーンのバックボーンとして機能します。
基本モデルと比較したこのモデルの主な利点は、サイズが小さく、パフォーマンスが高速であることです。
例#
仕様#
メトリック |
値 |
---|---|
F 値 (ICDAR2013 の精度と再現率の調和平均) |
88.45% |
GFlops |
7.78 |
MParams |
2.26 |
ソース・フレームワーク |
PyTorch* |
入力#
画像、名前: image
、形状: 1, 3, 704, 704
、形式: 1, C, H, W
、ここで:
C
- チャネル数H
- 画像の髙さW
- 画像の幅
予想される色の順序は、BGR
です。
出力#
boxes
は、形状100, 5
、形式N, 5
のブロブです。ここでN
は検出された境界ボックスの数です。各検出の説明は [x_min
,y_min
,x_max
,y_max
,conf
] の形式です。ここで:(
x_min
,y_min
) - 境界ボックスの左上隅の座標(
x_max
,y_max
) - 境界ボックスの右下隅の座標conf
- 予測されたクラスの信頼度
labels
は、形状100
、形式N
のブロブです。ここでN
は検出された境界ボックスの数です。テキスト検出の場合、検出された各ボックスの値は0
に等しくなります。
トレーニング・パイプライン#
OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。