robust-video-matting-mobilenetv3

ユースケースと概要説明

robust-video-matting-mobilenetv3 モデルは、リカレント・アーキテクチャーによるビデオ内の時間情報を活用し、時間的な一貫性とマッティング品質の大幅な向上を実現する、堅牢な高解像度のヒューマン・ビデオ・マッティング手法です。このモデルは PyTorch* フレームワークで事前トレーニングされ、ONNX* 形式に変換されます。詳細については、論文で説明されています。バックボーンは MobileNetV3 です。詳細についてはリポジトリーを参照してください。ONNX へのエクスポートの詳細については、こちらの手順を参照してください。

仕様

メトリック

タイプ

Background_matting

GFlops

9.3892

MParams

3.7363

ソース・フレームワーク

PyTorch*

精度

精度は、HumanMatting データセットからの前景と、入力解像度 1280x720 の OpenImagesV5 からの背景で構成されたデータセットで測定されました。

メトリック

元のモデル

変換されたモデル

Alpha MAD

20.79

20.82

Alpha MSE

15.1

15.11

Alpha GRAD

4.44

4.47

前景 MSE

4.05

4.06

  • Alpha MAD - アルファの絶対差の平均。

  • Alpha MSE - アルファの平均二乗誤差。

  • Alpha GRAD - アルファの空間勾配メトリック。

  • 前景 MSE - 前景の平均二乗誤差。

入力

元のモデル

画像、名前: src、形状: 1, 3, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序: RGB。スケール係数: 255

特徴マップ、名前: r1、形状: 1, 16, 144, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r2、形状: 1, 20, 72, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r3、形状: 1, 20, 36, 64、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r4、形状: 1, 20, 18, 32、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

変換されたモデル

画像、名前: src、形状: 1, 3, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序: BGR

特徴マップ、名前: r1、形状: 1, 16, 144, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r2、形状: 1, 20, 72, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r3、形状: 1, 20, 36, 64、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: r4、形状: 1, 20, 18, 32、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

出力

元のモデル

アルファーマット。名前: pha、形状: 1, 1, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

前景。名前: fgr、形状: 1, 3, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

特徴マップ、名前: rr1、形状: 1, 16, 144, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr2、形状: 1, 20, 72, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr3、形状: 1, 20, 36, 64、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr4、形状: 1, 20, 18, 32、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

変換されたモデル

アルファーマット。名前: pha、形状: 1, 1, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

前景。名前: fgr、形状: 1, 3, 720, 1280、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

特徴マップ、名前: rr1、形状: 1, 16, 144, 256、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr2、形状: 1, 20, 72, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr3、形状: 1, 20, 36, 64、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

特徴マップ、名前: rr4、形状: 1, 20, 18, 32、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 特徴マップの高さ

  • W - 特徴マップの幅

モデルをダウンロードして推論エンジン形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーや他の自動化ツールを使用してモデルを推論エンジン形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。