hrnet-v2-c1-segmentation#

ユースケースと概要説明#

このモデルはエンコーダーとデコーダーのペアです。エンコーダーは HRNetV2-W48 で、デコーダーは C1 (1 つの畳み込みモジュールと補間) です。HRNetV2-W48 は、ピクセルと領域のラベル付けのための高解像度表現という論文で説明されているアーキテクチャーに基づいたセマンティック・セグメント化モデルです。これは、モデル全体で高解像度表現を保持することに基づいた PyTorch* 実装であり、ADE20k データセットで事前トレーニングされています。モデルの実装の詳細については、PyTorch リポジトリーの MIT ADE20K データセットのセマンティック・セグメント化を確認してください。

仕様#

メトリック

タイプ

セグメント化

GFLOPs

81.9930

MParams

66.4768

ソース・フレームワーク

PyTorch*

精度#

メトリック

元のモデル

変換されたモデル

ピクセル精度

77.69%

77.69%

平均 IoU

33.02%

33.02%

入力#

元のモデル#

画像、名前: image、形状: 1, 3, 320, 320、形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • H - 髙さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。平均値: [123.675, 116.28, 103.53]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル#

画像、名前: input.1、形状: 1, 3, 320, 320、形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - チャネル

  • H - 髙さ

  • W - 幅

チャネルの順番は BGR です。

出力#

元のモデル#

ADE20k クラスに従ったセマンティックのセグメント化マスク、名前: softmax、形状: 1, 150, 320, 320、出力データ形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

  • H - 髙さ

  • W - 幅

変換されたモデル#

ADE20k クラスに従ったセマンティックのセグメント化マスク、名前: softmax、形状: 1, 150, 320, 320、出力データ形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

  • H - 髙さ

  • W - 幅

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: