text-detection-0003

ユースケースと概要説明

屋内/屋外シーンのバックボーンとして MobileNetV2 のような PixelLink アーキテクチャーに基づくテキスト検出器。

仕様

メトリック

F 値 (ICDAR2015 の精度とリコールの調和平均)

82.12%

GFlops

51.256

MParams

6.747

ソース・フレームワーク

TensorFlow*

入力

画像、名前: Placeholder、形状: 1, 768, 1280, 3、形式: B, H, W, C

説明:

  • B - バッチサイズ

  • H - 画像の髙さ

  • W - 画像の幅

  • C - チャネル数

予想される色の順序: BGR

出力

  1. 名前: model/link_logits_/add、形状: 1, 192, 320, 16 - ピクセルとその隣接ピクセル間のリンクに関連するロジット。

  2. 名前: model/segm_logits/add、形状: 1, 192, 320, 2 - 各ピクセルのテキスト/非テキスト分類に関連するロジット。

詳細については、PixelLink とデモを参照してください。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。