hrnet-v2-c1-segmentation

ユースケースと概要説明

このモデルはエンコーダーとデコーダーのペアです。エンコーダーは HRNetV2-W48 で、デコーダーは C1 (1 つの畳み込みモジュールと補間) です。HRNetV2-W48 は、ピクセルと領域のラベル付けのための高解像度表現という論文で説明されているアーキテクチャーに基づいたセマンティックセグメント化モデルです。これは、モデル全体で高解像度表現を保持することに基づいた PyTorch* 実装であり、ADE20k データセットで事前トレーニングされています。モデルの実装の詳細については、PyTorch リポジトリーの MIT ADE20K データセットのセマンティック・セグメント化を確認してください。

仕様

メトリック

タイプ

セグメンテーション

GFLOPs

81.9930

MParams

66.4768

ソース・フレームワーク

PyTorch*

精度

メトリック

元のモデル

変換されたモデル

ピクセル精度

77.69%

77.69%

平均 IoU

33.02%

33.02%

入力

元のモデル

画像、名前: image、形状: 1, 3, 320, 320、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • H - 高さ

  • W - 幅

  • C - チャネル

チャネルの順番は RGB です。平均値: [123.675, 116.28, 103.53]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル

画像、名前: input.1、形状: 1, 3, 320, 320、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル

  • H - 高さ

  • W - 幅

チャネルの順番は BGR です。

出力

元のモデル

ADE20k クラスに従ったセマンティックセグメント化マスク、名前: softmax、形状: 1, 150, 320, 320、出力データ形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

  • H - 高さ

  • W - 幅

変換されたモデル

ADE20k クラスに従ったセマンティックセグメント化マスク、名前: softmax、形状: 1, 150, 320, 320、出力データ形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - [0, 1] の範囲の各クラスの予測確率

  • H - 高さ

  • W - 幅

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。