horizontal-text-detection-0001

ユースケースと概要説明

MobileNetV2-like のような FCOS アーキテクチャーに基づくテキスト検出器であり、水平テキストを含む屋内/屋外シーンのバックボーンとして機能します。

基本モデルと比較したこのモデルの主な利点は、サイズが小さく、パフォーマンスが高速であることです。

仕様

メトリック

F 値 (ICDAR2013 の精度と再現率の調和平均)

88.45%

GFlops

7.78

MParams

2.26

ソース・フレームワーク

PyTorch*

入力

画像、名前: image、形状: 1, 3, 704, 704、形式: 1, C, H, W

説明:

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序は、BGR です。

出力

  1. boxes は、形状 100, 5、形式 N, 5 のブロブです。ここで N は検出された境界ボックスの数です。各検出の形式は次のとおりです。
    [x_min, y_min, x_max, y_max, conf]

    説明:

    • (x_min, y_min) - 境界ボックスの左上隅の座標

    • (x_max, y_max) - 境界ボックスの右下隅の座標

    • conf - 予測されたクラスの信頼度

  2. labels は、形状 100、形式 N のブロブです。ここで N は検出された境界ボックスの数です。テキスト検出の場合、検出された各ボックスの値は 0 に等しくなります。

トレーニング・パイプライン

OpenVINO トレーニング拡張は、トレーニング・パイプラインを提供し、カスタム・データセットでモデルを微調整できるようにします。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。