cocosnet

ユースケースと概要説明

クロスドメイン対応ネットワークは、対応部分と翻訳部分で構成される、見本ベースの画像翻訳モデルです。モデルは ADE20k データセットで事前トレーニングされました。詳細については論文リポジトリーを参照してください。

仕様

メトリック

タイプ

画像翻訳

GFLOPs

1080.7032

MParams

167.9141

ソース・フレームワーク

PyTorch*

精度

メトリックは、モデルによって生成された画像と ADE20k データセットからの実際の検証画像で計算されました。一部の GAN メトリック (IS および FID) では、検証ネットワークとして分類モデルを使用する必要があります。ここでは Inception-V3 モデルです。詳細については、精度チェッカーの設定 <omz_dir>/models/public/cocosnet/accuracy-check-pipelined.yml を確認してください。

メトリック

元のモデル

変換されたモデル

PSNR

12.99 dB

12.93 dB

SSIM

0.34

0.34

IS

13.34

13.35

FID

33.27

33.14

入力

  1. 名前: input_seg_map、形状: 1, 151, 256, 256 - B, C, H, W 形式でセマンティック・セグメント化マスク (ワンホット・ラベル・マップ) を入力します。
    説明:

    • B - バッチサイズ

    • C - クラス数 (ADE20k の場合は 151)

    • H - マスクの髙さ

    • W - マスクの幅

  2. 画像、名前: ref_image、形状: 1, 3, 256, 256 - B, C, H, W 形式の参照画像 (見本)。

    説明:

    • B - バッチサイズ

    • C - チャネル数

    • H - 画像の髙さ

    • W - 画像の幅

    予想される色の順序は BGR です (元のモデルで予想される色の順序は RGB)。

  3. 名前: ref_seg_map、形状: 1, 151, 256, 256 - B, C, H, W 形式の参照イメージのマスク (ワンホット・ラベル・マップ)。
    説明:

    • B - バッチサイズ

    • C - クラス数 (ADE20k の場合は 151)

    • H - マスクの髙さ

    • W - マスクの幅

出力

画像、名前: exemplar_based_output、形状: 1, 3, 256, 256 - B, C, H, W 形式の見本に基づく結果 (生成) イメージ。
説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

出力色の順序は RGB です。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。