face-reidentification-retail-0095

ユースケースと概要説明

これは、顔再識別シナリオ用の軽量ネットワークです。これは、スクイーズ励起 (squeeze-excitation) アテンション・モジュールを備えた 3x3 の反転残差ブロックで構成される MobileNet V2 バックボーンに基づいています。元の MobileNet V2 で使用されていた ReLU6 アクティベーションの代わりに、このネットワークでは PReLU アクティベーションが使用されます。バックボーンの後、ネットワークはグローバルな深さ方向のプーリングを適用し、1x1 畳み込みにより最終的な埋め込みベクトルを作成します。モデルは、類似した顔のコサイン距離が近く、異なる顔のコサイン距離が遠い特徴ベクトルを生成します。

仕様

メトリック

LFW の精度

0.9947

顔の位置要件

整列したクロップ

GFlops

0.588

MParams

1.107

ソース・フレームワーク

PyTorch*

LFW メトリックは、ペアワイズ再識別テストの精度です。詳細は、ベンチマークの説明を参照してください。

入力面が正面に位置合わせされている場合、モデルは最良の結果を達成します。5 つのキー ポイント (左目、右目、鼻先、左唇の角、右唇の角) が正規化された座標 [0,1]x[0,1] の次の点に位置する場合、顔画像は位置合わせされています。

[(0.31556875000000000, 0.4615741071428571),
 (0.68262291666666670, 0.4615741071428571),
 (0.50026249999999990, 0.6405053571428571),
 (0.34947187500000004, 0.8246919642857142),
 (0.65343645833333330, 0.8246919642857142)]

顔を位置合わせするには、ランドマーク回帰モデルを使用します。回帰ポイントと指定された参照ランドマークを使用して、アフィン変換を構築して回帰ポイントを参照ポイントに変換し、この変換を入力顔画像に適用します。

入力

入力画像、名前: 0、形状: 1, 3, 128, 128、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル数

  • H - 画像の髙さ

  • W - 画像の幅

予想される色の順序は BGR です。

出力

最終出力は、256 個の浮動小数点値の行ベクトルを含む、形状 1, 256, 1, 1 のブロブを出力します。異なる画像の出力はコサイン距離で比較できます。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。