colorization-siggraph

ユースケースと概要説明

colorization-siggraph モデルは、リアルタイムのユーザーガイドによる画像の色付けを目的として設計されたモデルの色付けグループの 1 つです。このモデルは、合成的に生成されたユーザー・インタラクションを使用して ImageNet データセット上でトレーニングされました。このモデルファミリーの詳細については、リポジトリーを確認してください。

モデルは、入力として LAB イメージの L チャネルを使用します (オプションの入力としてユーザーポイントとバイナリーマスクも使用します)。モデルは、LAB 画像の A チャネルと B チャネルを出力として予測します。

仕様

メトリック

タイプ

カラー化

GFLOPs

150.5441

MParams

34.0511

ソース・フレームワーク

PyTorch*

精度

精度メトリックは、モデルによって生成された画像と ImageNet データセットの実際の検証画像で計算されました。結果は 2000 枚の画像のサブセットで得られます。

メトリック

PSNR

27.73 dB

SSIM

0.92

また、前処理として VGG16 caffe モデルとカラー化を使用してメトリックを計算できます。以下の結果は、ImageNet データセットの検証画像から得られます。

受信した値の rgb --> グレー -> カラー化を前処理する場合:

メトリック

前処理を行った値

前処理なしの値

精度上位 1

58.25%

70.96%

精度上位 5

81.78%

89.88%

入力

  1. 画像、名前: data_l、形状: 1, 1, 256, 256、形式: B, C, H, W

    説明:

    • B - バッチサイズ

    • C - チャネル

    • H - 高さ

    • W - 幅

    LAB-image の L チャネル。

  2. 画像、名前: user_ab、形状: 1, 2, 256, 256、形式: B, C, H, W

    説明:

    • B - バッチサイズ

    • C - チャネル

    • H - 高さ

    • W - 幅

    チャネル順序は LAB-image の AB チャネルです。ユーザーポイントを入力します。

  3. マスク、名前: user_map、形状: 1, 1, 256, 256、形式: B, C, H, W

    説明:

    • B - バッチサイズ

    • C - ピクセルのフラグの数

    • H - 高さ

    • W - 幅

    この入力は、ユーザーがどのポイントを提供するかを示すバイナリーマスクです。マスクは、(a,b) = 0 で未指定の点とユーザー指定のグレーの点を区別します。point(pixel) が指定された場合、フラグは 1 になります。

注: モデルを使用するため 3 つの入力をすべて指定する必要はありません。ローカル・ユーザー・ヒント (ユーザーポイント) を使用したくない場合は、data_l 入力のみを使用できます。この場合、残りの入力 (user_abuser_map) にはゼロを入力する必要があります。

出力

画像、名前: color_ab、形状: 1, 2, 256, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル

  • H - 高さ

  • W - 幅

チャネル順序は LAB-image の AB チャネルです。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。