ctpn

ユースケースと概要説明

Connectionist Text Proposal Network (CTPN) を使用した自然画像内のテキストの検出。詳細についてはこちらを参照してください。

仕様

メトリック

タイプ

物体検出

GFlops

55.813

MParams

17.237

ソース・フレームワーク

TensorFlow*

精度

メトリック

hmean

73.67%

入力

元のモデル

画像、名前: image_tensor、形状: 1, 600, 600, 3、形式: B, H, W, C

説明:

  • B - バッチサイズ

  • H - 画像の髙さ

  • W - 画像の幅

  • C - チャネル数

予想される色の順序: BGR。平均値: [102.9801、115.9465、122.7717]

変換されたモデル

画像、名前: Placeholder、形状: 1, 600, 600, 3、形式: B, H, W, C

説明:

  • B - バッチサイズ

  • H - 画像の髙さ

  • W - 画像の幅

  • C - チャネル数

予想される色の順序: BGR

出力

元のモデル

  1. 検出ボックス、名前: rpn_bbox_pred/Reshape_1 には、形式: B, H, W, A の予測領域が含まれます。

    説明:

    • B - バッチサイズ

    • H - 画像の髙さ

    • W - 画像の幅

    • A - 4*N 座標のベクトル。N は検出されたアンカーの数です。

  2. 確率、名前: Reshape_2 には、[0,1] 範囲の予測領域の確率が B, H, W, A 形式で含まれます。
    説明:

    • B - バッチサイズ

    • H - 画像の髙さ

    • W - 画像の幅

    • A - 4*N 座標のベクトル。N は検出されたアンカーの数です。

変換されたモデル

  1. 検出ボックス、名前: rpn_bbox_pred/Reshape_1 には、形式: B, H, W, A の予測領域が含まれます。

    説明:

    • B - バッチサイズ

    • H - 画像の髙さ

    • W - 画像の幅

    • A - 4*N 座標のベクトル。N は検出されたアンカーの数です。

  2. 確率、名前: Reshape_2 には、[0,1] 範囲の予測領域の確率が B, H, W, A 形式で含まれます。
    説明:

    • B - バッチサイズ

    • H - 画像の髙さ

    • W - 画像の幅

    • A - 4*N 座標のベクトル。N は検出されたアンカーの数です。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。