higher-hrnet-w32-human-pose-estimation#

ユースケースと概要説明#

HigherHRNet-W32 モデルは HigherHRNet の 1 つです。HigherHRNet は、高解像度の特徴ピラミッドを使用してスケールを意識した表現を学習する、新しいボトムアップの人間の姿勢推定方法です。このネットワークは HRNet をバックボーンとして使用し、その後に 1 つ以上の逆畳み込みモジュールを使用して、多重解像度および高解像度のヒートマップを生成します。画像内のすべての人物について、ネットワークはポーズ、つまりキーポイントとキーポイント間の接続で構成される体の骨格を検出します。ポーズには、ears、eyes、nose、shoulders、elbows、wrists、hips、knees、ankles (耳、目、鼻、肩、肘、手首、腰、膝、足首) など、最大 17 個のキーポイントを含めることができます。これは、COCO データセットで事前トレーニングされた PyTorch* 実装です。モデル実装の詳細については、HigherHRNet: ボトムアップ人間ポーズ推定のためのスケール認識表現学習リポジトリーを確認してください。

仕様#

メトリック

タイプ

人間の姿勢推定

GFLOPs

92.8364

MParams

28.6180

ソース・フレームワーク

PyTorch*

精度#

メトリック

元のモデル

変換されたモデル

平均精度 (AP)

64.64%

64.64%

モデルは、val2017 分割を使用して COCO データセットでテストされました。これらは、シングルパス推論の精度チェックの結果です (画像の反転なし。元のリポジトリーでデフォルトで使用されます)。

入力#

元のモデル#

画像、名前: image、形状: 1, 3, 512, 512、形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - チャネル

  • H - 髙さ

  • W - 幅

チャネルの順番は RGB です。平均値: [123.675, 116.28, 103.53]、スケール値: [58.395, 57.12, 57.375]

変換されたモデル#

画像、名前: image、形状: 1, 3, 512, 512、形式: B, C, H, W、ここで:

  • B - バッチサイズ

  • C - チャネル

  • H - 髙さ

  • W - 幅

チャネルの順番は BGR です。

出力#

最終出力は 2 つのブロブです:

  • ポーズのキーポイントの位置を含む形状 1, 17, 256, 256heatmaps 。非最大抑制アルゴリズムによって除外された位置には、否定値が割り当てられています。

  • 形状 1, 17, 256, 256embeddings には、個々のキーポイントをポーズにグループ化する連想埋め込み値が含まれています。

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: