horizontal-text-detection-0001#

ユースケースと概要説明#

MobileNetV2-like のような FCOS アーキテクチャーに基づくテキスト検出器であり、水平テキストを含む屋内/屋外シーンのバックボーンとして機能します。

基本モデルと比較したこのモデルの主な利点は、サイズが小さく、パフォーマンスが高速であることです。

画像、名前: image、形状: 1, 3, 704, 704、形式: 1, C, H, W、ここで:

予想される色の順序は、BGR です。

boxes は、形状 100, 5、形式 N, 5 のブロブです。ここで N は検出された境界ボックスの数です。各検出の説明は [x_min, y_min, x_max, y_max, conf] の形式です。ここで:
- (x_min, y_min) - 境界ボックスの左上隅の座標
- (x_max, y_max) - 境界ボックスの右下隅の座標
- conf - 予測されたクラスの信頼度
labels は、形状 100、形式 N のブロブです。ここで N は検出された境界ボックスの数です。テキスト検出の場合、検出された各ボックスの値は 0 に等しくなります。

OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。