higher-hrnet-w32-human-pose-estimation

ユースケースと概要説明

HigherHRNet-W32 モデルは HigherHRNet の 1 つです。HigherHRNet は、高解像度の特徴ピラミッドを使用してスケールを意識した表現を学習する、新しいボトムアップの人間の姿勢推定方法です。このネットワークは HRNet をバックボーンとして使用し、その後に 1 つ以上の逆畳み込みモジュールを使用して、多重解像度および高解像度のヒートマップを生成します。画像内のすべての人物について、ネットワークはポーズ、つまりキーポイントとキーポイント間の接続で構成される体の骨格を検出します。ポーズには、ears、eyes、nose、shoulders、elbows、wrists、hips、knees、ankles (耳、目、鼻、肩、肘、手首、腰、膝、足首) など、最大 17 個のキーポイントを含めることができます。これは、COCO データセットで事前トレーニングされた PyTorch* 実装です。モデル実装の詳細については、HigherHRNet: ボトムアップ人間の姿勢推定のためのスケール認識表現学習リポジトリーを確認してください。

仕様

メトリック

タイプ

人間の姿勢推定

GFLOPs

92.8364

MParams

28.6180

ソース・フレームワーク

PyTorch*

精度

メトリック

元のモデル

変換されたモデル

平均精度 (AP)

64.64%

64.64%

モデルは、val2017 分割を使用して COCO データセットでテストされました。これらは、シングルパス推論の精度チェックの結果です (画像の反転なし。元のリポジトリーでデフォルトで使用されます)。

入力

元のモデル

画像、名前: image、形状: 1, 3, 512, 512、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル

  • H - 高さ

  • W - 幅

チャネルの順番は RGB です。平均値: [123.675, 116.28, 103.53]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル

画像、名前: image、形状: 1, 3, 512, 512、形式: B, C, H, W

説明:

  • B - バッチサイズ

  • C - チャネル

  • H - 高さ

  • W - 幅

チャネルの順番は BGR です。

出力

最終出力は 2 つのブロブです。

  • heatmaps ポーズのキーポイントの位置を含む形状 1, 17, 256, 256 のヒートマップ。非最大抑制アルゴリズムによって除外された位置には、否定値が割り当てられています。

  • embeddings 形状 1, 17, 256, 256 の埋め込みには、個々のキーポイントをポーズにグループ化する連想埋め込み値が含まれています。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。