robust-video-matting-mobilenetv3¶
ユースケースと概要説明¶
robust-video-matting-mobilenetv3
モデルは、リカレント・アーキテクチャーによるビデオ内の時間情報を活用し、時間的な一貫性とマッティング品質の大幅な向上を実現する、堅牢な高解像度のヒューマン・ビデオ・マッティング手法です。このモデルは PyTorch* フレームワークで事前トレーニングされ、ONNX* 形式に変換されます。詳細については、論文で説明されています。バックボーンは MobileNetV3 です。詳細についてはリポジトリーを参照してください。ONNX へのエクスポートの詳細については、こちらの手順を参照してください。
仕様¶
メトリック |
値 |
---|---|
タイプ |
Background_matting |
GFlops |
9.3892 |
MParams |
3.7363 |
ソース・フレームワーク |
PyTorch* |
精度¶
精度は、HumanMatting データセットからの前景と、入力解像度 1280x720 の OpenImagesV5 からの背景で構成されたデータセットで測定されました。
メトリック |
元のモデル |
変換されたモデル |
---|---|---|
Alpha MAD |
20.79 |
20.82 |
Alpha MSE |
15.1 |
15.11 |
Alpha GRAD |
4.44 |
4.47 |
前景 MSE |
4.05 |
4.06 |
Alpha MAD - アルファの絶対差の平均。
Alpha MSE - アルファの平均二乗誤差。
Alpha GRAD - アルファの空間勾配メトリック。
前景 MSE - 前景の平均二乗誤差。
入力¶
元のモデル¶
画像、名前: src
、形状: 1, 3, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
予想される色の順序: RGB
。スケール係数: 255
特徴マップ、名前: r1
、形状: 1, 16, 144, 256
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r2
、形状: 1, 20, 72, 128
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r3
、形状: 1, 20, 36, 64
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r4
、形状: 1, 20, 18, 32
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
変換されたモデル¶
画像、名前: src
、形状: 1, 3, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
予想される色の順序: BGR
。
特徴マップ、名前: r1
、形状: 1, 16, 144, 256
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r2
、形状: 1, 20, 72, 128
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r3
、形状: 1, 20, 36, 64
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: r4
、形状: 1, 20, 18, 32
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
出力¶
元のモデル¶
アルファーマット。名前: pha
、形状: 1, 1, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
前景。名前: fgr
、形状: 1, 3, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
特徴マップ、名前: rr1
、形状: 1, 16, 144, 256
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr2
、形状: 1, 20, 72, 128
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr3
、形状: 1, 20, 36, 64
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr4
、形状: 1, 20, 18, 32
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
変換されたモデル¶
アルファーマット。名前: pha
、形状: 1, 1, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
前景。名前: fgr
、形状: 1, 3, 720, 1280
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 画像の髙さW
- 画像の幅
特徴マップ、名前: rr1
、形状: 1, 16, 144, 256
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr2
、形状: 1, 20, 72, 128
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr3
、形状: 1, 20, 36, 64
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
特徴マップ、名前: rr4
、形状: 1, 20, 18, 32
、形式: B, C, H, W
。
説明:
B
- バッチサイズC
- チャネル数H
- 特徴マップの高さW
- 特徴マップの幅
モデルをダウンロードして推論エンジン形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーや他の自動化ツールを使用してモデルを推論エンジン形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、GPL-3.0 ライセンスに基づいて配布されています。