yolact-resnet50-fpn-pytorch

ユースケースと概要説明

YOLACT ResNet 50 は、YOLACT: リアルタイム・インスタンス・セグメント化の論文で説明されている、リアルタイムのインスタンス・セグメント化のシンプルな完全畳み込みモデルです。Common Objects in Context (COCO) データセットに対して Pytorch* で事前トレーニングされたモデル。詳細についてはリポジトリーを参照してください。

仕様

メトリック

タイプ

インスタンス・セグメント化

GFlops

118.575

MParams

36.829

ソース・フレームワーク

PyTorch*

精度

メトリック

AP@masks

28.00%

AP@boxes

30.69%

入力

元のモデル

画像、名前: input.1、形状: 1, 3, 550, 550、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • H - 画像の髙さ

  • W - 画像の幅

  • C - チャネル数

予想される色の順序: RGB。平均値: [123.675, 116.78, 103.94]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル

画像、名前: input.1、形状: 1, 3, 550, 550、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序: BGR

出力

元のモデル

  1. 検出スコア、名前: conf。[0,1] の範囲内にあるすべてのクラスのスコア分布が含まれます。モデルは、80 カテゴリのオブジェクト (0 クラスは背景用) を含む Common Objects in Context (COCO) データセットでトレーニングされました。出力形状は 1, 19248, 81、形式は B, N, C です。
    説明:

    • B - バッチサイズ。

    • N - 検出されたボックス数。

    • C - クラス数。

  2. 検出ボックス、名前: boxes。次の形式の検出ボックスの座標が含まれます:[y_min, x_min, y_max, x_max]、ここで (x_min, y_min) は左上隅の座標、(x_max, y_max) は右下隅の座標です。座標は [0, 1] の範囲で正規化されます。出力形状は 1, 19248, 4、形式は B, N, 4 です。
    説明:

    • B - バッチサイズ。

    • N - 検出されたボックス数。

  3. マスクのプロトタイプ、名前は proto です。マスクデコードなど特徴投影が含まれます。出力形状は 1, 138, 138, 32、形式は B, H, W, C です。
    説明:

    • B - バッチサイズ。

    • H - マスクの髙さ。

    • W - マスクの幅。

    • C - チャネル。

  4. 生のインスタンス・マスク、名前: mask。出力境界ボックスのすべてのクラスで検出されたオブジェクトのセグメント化ヒートマップが含まれます。出力形状は B, N, C フォーマットです。
    説明:

    • B - バッチサイズ。

    • N - 検出されたボックス数。

    • C - チャネル。

最終的なマスク予測は、proto と転置 mask 出力の行列乗算によって取得できます。

変換されたモデル

変換されたモデルの出力は元のモデルと同じです。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。