OpenVINO™ ツールキットのインテルによる事前トレーニング済みモデル概要

OpenVINO™ ツールキットは、学習やデモの目的、またはディープラーニング・ソフトウェアの開発に使用できる、インテルによる事前トレーニング済みモデルセットを提供します。最新バージョンは、GitHub のリポジトリーで入手できます。インテルによる事前トレーニング・モデルのデバイスサポートの表は、各モデルでサポートされるデバイスをまとめたものです。

モデルはモデル・ダウンローダー経由でダウンロードできます。

オブジェクト検出モデル

いくつかの検出モデルを使用して、顔、人、車両などの最も一般的なオブジェクトのセットを検出できます。ほとんどのネットワークは SSD ベースであり、精度とパフォーマンスの適度なトレードオフを提供します。同じ種類のオブジェクトを検出するネットワーク (例えば、face-detection-adas-0001face-detection-retail-0004) では、パフォーマンスは低下しますが、より高い精度とより幅広い適用性を選択できるため、“より大きな” ネットワークを使用すると、同じ種類のオブジェクトをさらに適切に検出できます。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

faster-rcnn-resnet101-coco-sparse-60-0001

364.21

52.79

face-detection-adas-0001

2.835

1.053

face-detection-retail-0004

1.067

0.588

face-detection-retail-0005

0.982

1.021

face-detection-0200

0.785

1.828

face-detection-0202

1.767

1.842

face-detection-0204

2.405

1.851

face-detection-0205

2.853

2.392

face-detection-0206

339.597

69.920

person-detection-retail-0002

12.427

3.244

person-detection-retail-0013

2.300

0.723

person-detection-action-recognition-0005

7.140

1.951

person-detection-action-recognition-0006

8.225

2.001

person-detection-action-recognition-teacher-0002

7.140

1.951

person-detection-raisinghand-recognition-0001

7.138

1.951

person-detection-0200

0.786

1.817

person-detection-0201

1.768

1.817

person-detection-0202

3.143

1.817

person-detection-0203

6.519

2.394

person-detection-0301

79318.2158

55.557

person-detection-0302

370.208

51.164

person-detection-0303

24.758

3.630

person-detection-0106

404.264

71.565

pedestrian-detection-adas-0002

2.836

1.165

pedestrian-and-vehicle-detector-adas-0001

3.974

1.650

vehicle-detection-adas-0002

2.798

1.079

vehicle-detection-0200

0.786

1.817

vehicle-detection-0201

1.768

1.817

vehicle-detection-0202

3.143

1.817

person-vehicle-bike-detection-crossroad-0078

3.964

1.178

person-vehicle-bike-detection-crossroad-1016

3.560

2.887

person-vehicle-bike-detection-crossroad-yolov3-1020

65.984

61.922

person-vehicle-bike-detection-2000

0.787

1.821

person-vehicle-bike-detection-2001

1.770

1.821

person-vehicle-bike-detection-2002

3.163

1.821

person-vehicle-bike-detection-2003

6.550

2.416

person-vehicle-bike-detection-2004

1.811

2.327

vehicle-license-plate-detection-barrier-0106

0.349

0.634

product-detection-0001

3.598

3.212

person-detection-asl-0001

0.986

1.338

yolo-v2-ava-0001

29.38

48.29

yolo-v2-ava-sparse-35-0001

29.38

48.29

yolo-v2-ava-sparse-70-0001

29.38

48.29

yolo-v2-tiny-ava-0001

6.975

15.12

yolo-v2-tiny-ava-sparse-30-0001

6.975

15.12

yolo-v2-tiny-ava-sparse-60-0001

6.975

15.12

yolo-v2-tiny-vehicle-detection-0001

5.424

11.229

smartlab-object-detection-0001

1.077

0.8908

smartlab-object-detection-0002

1.073

0.8894

smartlab-object-detection-0003

1.077

0.8908

smartlab-object-detection-0004

1.073

0.8894

オブジェクト認識モデル

オブジェクト認識モデルは、分類、回帰、文字認識に使用されます。これらのネットワークは、それぞれの検出器の後に使用します (例えば、顔検出後の年齢/性別認識)。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

age-gender-recognition-retail-0013

0.094

2.138

head-pose-estimation-adas-0001

0.105

1.911

license-plate-recognition-barrier-0001

0.328

1.218

vehicle-attributes-recognition-barrier-0039

0.126

0.626

vehicle-attributes-recognition-barrier-0042

0.462

11.177

emotions-recognition-retail-0003

0.126

2.483

landmarks-regression-retail-0009

0.021

0.191

facial-landmarks-98-detection-0001

0.6

9.66

facial-landmarks-35-adas-0002

0.042

4.595

person-attributes-recognition-crossroad-0230

0.174

0.735

person-attributes-recognition-crossroad-0234

2.167

23.510

person-attributes-recognition-crossroad-0238

1.034

21.797

gaze-estimation-adas-0002

0.139

1.882

再識別モデル

ビデオ内のオブジェクトの正確な追跡は、コンピューター・ビジョンの一般的な用途です (人数カウントなど)。多くの場合、“比較的長いオブジェクトの不在” として表現できるイベントによって状況は複雑になります。例えば、オクルージョンやフレーム外の動きによって発生する可能性があります。このような場合、画像内の現在の位置や、最後に位置が判明してからの経過時間に関係なく、オブジェクトを “前に見た” ものとして認識するほうがよいでしょう。

このシナリオでは、次のネットワークを使用できます。人物の画像を取得し、埋め込み (人物の外観を表す高次元空間のベクトル) を評価します。このベクトルはさらなる評価に使用できます: 同じ人物に対応する画像には、L2 メトリック (ユークリッド距離) による “近い” 埋め込みベクトルが含まれます。

パフォーマンスと精度の間でさまざまなトレードオフを持つモデルが複数あります (モデルが大きいほどパフォーマンスが向上すると予想されます)。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

face-reidentification-retail-0095

0.588

1.107

person-reidentification-retail-0288

0.174

0.183

person-reidentification-retail-0287

0.564

0.595

person-reidentification-retail-0286

1.170

1.234

person-reidentification-retail-0277

1.993

2.103

セマンティック・セグメント化モデル

セマンティックのセグメント化は、オブジェクト検出問題の拡張です。セマンティック・セグメント化モデルは、境界ボックスを返す代わりに、入力画像の “ペイントされた” バージョンを返します。ここで、各ピクセルの “色” は特定のクラスを表します。これらのネットワークは、それぞれの物体検出ネットワークよりもはるかに大規模ですが、物体の (ピクセルレベルでの) 位置特定が向上し、複雑な形状の領域 (道路上の空きスペースなど) を検出できます。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

road-segmentation-adas-0001

4.770

0.184

semantic-segmentation-adas-0001

58.572

6.686

unet-camvid-onnx-0001

260.1

31.03

icnet-camvid-ava-0001

151.82

25.45

icnet-camvid-ava-sparse-30-0001

151.82

25.45

icnet-camvid-ava-sparse-60-0001

151.82

25.45

インスタンス・セグメント化モデル

インスタンスのセグメント化は、オブジェクト検出とセマンティックのセグメント化の問題の拡張です。各オブジェクト・インスタンスの周囲の境界ボックスを予測する代わりに、インスタンスのセグメント化モデルはすべてのインスタンスのピクセル単位のマスクを出力します。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

instance-segmentation-security-0002

423.0842

48.3732

instance-segmentation-security-0091

828.6324

101.236

instance-segmentation-security-0228

147.2352

49.8328

instance-segmentation-security-1039

13.9672

10.5674

instance-segmentation-security-1040

29.334

13.5673

instance-segmentation-person-0007

4.8492

7.2996

人物姿勢推定モデル

人物の姿勢推定タスクは、入力画像やビデオ内のすべての人物のポーズ、つまりキーポイントとキーポイント間の接続で構成される体の骨格を予測します。キーポイントは体の関節、つまり耳、目、鼻、肩、膝などです。これには、トップダウンとボトムアップの 2 つの主要なグループがあります。最初に、特定のフレーム内で人物を検出し、検出をトリミングまたは再スケールしてから、検出ごとに姿勢推定ネットワークを実行します。これらの方法は非常に正確です。2 つ目では、指定されたフレーム内のすべてのキーポイントを検索し、人物インスタンスごとにグループ化します。これにより、ネットワークが 1 回だけ実行されるため、前よりも高速になります。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

human-pose-estimation-0001

15.435

4.099

human-pose-estimation-0005

5.9393

8.1504

human-pose-estimation-0006

8.8720

8.1504

human-pose-estimation-0007

14.3707

8.1504

画像処理

ディープラーニング・モデルは、出力の品質を向上させるため、さまざまな画像処理タスクに応用できます。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

single-image-super-resolution-1032

11.654

0.030

single-image-super-resolution-1033

30.97

16.062

text-image-super-resolution-0001

1.379

0.003

テキスト検出

さまざまなアプリケーションでのテキスト検出のためのディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

text-detection-0003

51.256

6.747

text-detection-0004

23.305

4.328

horizontal-text-detection-0001

7.718

2.259

テキスト認識

さまざまなアプリケーションでのテキスト認識のためのディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

text-recognition-0012

1.485

5.568

text-recognition-0014

0.5442

2.839

text-recognition-0015

encoder

12.4

398

decoder

0.03

4.33

text-recognition-0016

encoder

9.27

88.1

decoder

0.08

4.28

handwritten-score-recognition-0003

0.792

5.555

handwritten-japanese-recognition-0001

117.136

15.31

handwritten-simplified-chinese-recognition-0001

134.513

17.270

handwritten-english-recognition-0001

1.3182

0.1413

formula-recognition-medium-scan-0001

encoder

16.56

1.86

decoder

1.69

2.56

formula-recognition-polynomials-handwritten-0001

encoder

12.8447

0.2017

decoder

8.6838

2.5449

テキスト・スポッティング

テキスト・スポッティング (検出と認識の同時) のためのディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

text-spotting-0005

text-spotting-0005-detector

184.495

27.010

text-spotting-0005-recognizer-encoder

2.082

1.328

text-spotting-0005-recognizer-decoder

0.002

0.273

動作認識モデル

行動認識モデルは、短いビデオクリップ (入力ビデオからサンプリングされたフレームを累積することによって形成されるテンソル) で実行されているアクションを予測します。一部のモデル (例えば、driver-action-recognition-adas-0002 では、事前に計算された高レベルの空間または時空間) 特徴 (埋め込み) を個々のクリップの断片から使用し、それらを時間モデルに集約して、分類スコアを持つベクトルを予測します。埋め込みを計算するモデルはエンコーダーと呼ばれ、実際のラベルを予測するモデルはデコーダーと呼ばれます。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

driver-action-recognition-adas-0002

driver-action-recognition-adas-0002-encoder

0.676

2.863

driver-action-recognition-adas-0002-decoder

0.147

4.205

action-recognition-0001

action-recognition-0001-encoder

7.340

21.276

action-recognition-0001-decoder

0.147

4.405

asl-recognition-0004

6.660

4.133

common-sign-language-0002

4.227

4.113

weld-porosity-detection-0001

3.636

11.173

画像検索

画像検索用のディープラーニング・モデル (‘probe’ 画像との類似性に基づいて ‘gallery’ 画像をランク付け)。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

image-retrieval-0001

0.613

2.535

圧縮モデル

ディープラーニング圧縮モデル

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

resnet50-binary-0001

1.002

7.446

resnet18-xnor-binary-onnx-0001

-

-

機械翻訳

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

machine-translation-nar-en-ru-0002

23.17

69.29

machine-translation-nar-ru-en-0002

23.17

69.29

machine-translation-nar-en-de-0002

23.19

77.47

machine-translation-nar-de-en-0002

23.19

77.47

テキスト読み上げ

音声合成用のディープラーニング・モデル (メルスペクトログラム生成と波形生成)。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

text-to-speech-en-0001

text-to-speech-en-0001-duration-prediction

15.84

13.569

text-to-speech-en-0001-regression

7.65

4.96

text-to-speech-en-0001-generation

48.38

12.77

音声合成用のディープラーニング・モデル (メルスペクトログラム生成と波形生成)。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

text-to-speech-en-multi-0001

text-to-speech-en-multi-0001-duration-prediction

28.75

26.18

text-to-speech-en-multi-0001-regression

7.81

5.12

text-to-speech-en-multi-0001-generation

48.38

12.77

音声ノイズ抑制

ノイズ抑制のためのディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

noise-suppression-poconetlike-0001

1.2

7.22

noise-suppression-denseunet-ll-0001

0.2

4.2

時系列予測

時系列予測のためのディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

time-series-forecasting-electricity-0001

0.40

2.26

アクション・シーケンスのモデル化

オンライン・シーケンス・モデリング用のディープラーニング・モデル。

モデル名

複雑性 (GFLOPs)

サイズ (Mp)

smartlab-sequence-modelling-0001

0.11

2.537

smartlab-sequence-modelling-0002

0.049

1.02

smartlab-action-recognition-0001

smartlab-action-recognition-0001-encoder-side

0.611

3.387

smartlab-action-recognition-0001-encoder-top

0.611

3.387

smartlab-action-recognition-0001-decoder

0.008

4.099