horizontal-text-detection-0001#

ユースケースと概要説明#

MobileNetV2-like のような FCOS アーキテクチャーに基づくテキスト検出器であり、水平テキストを含む屋内/屋外シーンのバックボーンとして機能します。

基本モデルと比較したこのモデルの主な利点は、サイズが小さく、パフォーマンスが高速であることです。

#

仕様#

メトリック

F 値 (ICDAR2013 の精度と再現率の調和平均)

88.45%

GFlops

7.78

MParams

2.26

ソース・フレームワーク

PyTorch*

入力#

画像、名前: image、形状: 1, 3, 704, 704、形式: 1, C, H, W、ここで:

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序は、BGR です。

出力#

  1. boxes は、形状 100, 5、形式 N, 5 のブロブです。ここで N は検出された境界ボックスの数です。各検出の説明は [x_min, y_min, x_max, y_max, conf] の形式です。ここで:

    • (x_min, y_min) - 境界ボックスの左上隅の座標

    • (x_max, y_max) - 境界ボックスの右下隅の座標

    • conf - 予測されたクラスの信頼度

  2. labels は、形状 100、形式 N のブロブです。ここで N は検出された境界ボックスの数です。テキスト検出の場合、検出された各ボックスの値は 0 に等しくなります。

トレーニング・パイプライン#

OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: