OpenVINO™ ツールキットのインテルによる事前トレーニング済みモデル概要¶
OpenVINO™ ツールキットは、学習やデモの目的、またはディープラーニング・ソフトウェアの開発に使用できる、インテルによる事前トレーニング済みモデルセットを提供します。最新バージョンは、GitHub のリポジトリーで入手できます。インテルによる事前トレーニング・モデルのデバイスサポートの表は、各モデルでサポートされるデバイスをまとめたものです。
モデルはモデル・ダウンローダー経由でダウンロードできます。
オブジェクト検出モデル¶
いくつかの検出モデルを使用して、顔、人、車両などの最も一般的なオブジェクトのセットを検出できます。ほとんどのネットワークは SSD ベースであり、精度とパフォーマンスの適度なトレードオフを提供します。同じ種類のオブジェクトを検出するネットワーク (例えば、face-detection-adas-0001
と face-detection-retail-0004
) では、パフォーマンスは低下しますが、より高い精度とより幅広い適用性を選択できるため、“より大きな” ネットワークを使用すると、同じ種類のオブジェクトをさらに適切に検出できます。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
364.21 |
52.79 |
|
2.835 |
1.053 |
|
1.067 |
0.588 |
|
0.982 |
1.021 |
|
0.785 |
1.828 |
|
1.767 |
1.842 |
|
2.405 |
1.851 |
|
2.853 |
2.392 |
|
339.597 |
69.920 |
|
12.427 |
3.244 |
|
2.300 |
0.723 |
|
7.140 |
1.951 |
|
8.225 |
2.001 |
|
7.140 |
1.951 |
|
7.138 |
1.951 |
|
0.786 |
1.817 |
|
1.768 |
1.817 |
|
3.143 |
1.817 |
|
6.519 |
2.394 |
|
79318.2158 |
55.557 |
|
370.208 |
51.164 |
|
24.758 |
3.630 |
|
404.264 |
71.565 |
|
2.836 |
1.165 |
|
3.974 |
1.650 |
|
2.798 |
1.079 |
|
0.786 |
1.817 |
|
1.768 |
1.817 |
|
3.143 |
1.817 |
|
3.964 |
1.178 |
|
3.560 |
2.887 |
|
65.984 |
61.922 |
|
0.787 |
1.821 |
|
1.770 |
1.821 |
|
3.163 |
1.821 |
|
6.550 |
2.416 |
|
1.811 |
2.327 |
|
0.349 |
0.634 |
|
3.598 |
3.212 |
|
0.986 |
1.338 |
|
29.38 |
48.29 |
|
29.38 |
48.29 |
|
29.38 |
48.29 |
|
6.975 |
15.12 |
|
6.975 |
15.12 |
|
6.975 |
15.12 |
|
5.424 |
11.229 |
|
1.077 |
0.8908 |
|
1.073 |
0.8894 |
|
1.077 |
0.8908 |
|
1.073 |
0.8894 |
オブジェクト認識モデル¶
オブジェクト認識モデルは、分類、回帰、文字認識に使用されます。これらのネットワークは、それぞれの検出器の後に使用します (例えば、顔検出後の年齢/性別認識)。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
0.094 |
2.138 |
|
0.105 |
1.911 |
|
0.328 |
1.218 |
|
0.126 |
0.626 |
|
0.462 |
11.177 |
|
0.126 |
2.483 |
|
0.021 |
0.191 |
|
0.6 |
9.66 |
|
0.042 |
4.595 |
|
0.174 |
0.735 |
|
2.167 |
23.510 |
|
1.034 |
21.797 |
|
0.139 |
1.882 |
再識別モデル¶
ビデオ内のオブジェクトの正確な追跡は、コンピューター・ビジョンの一般的な用途です (人数カウントなど)。多くの場合、“比較的長いオブジェクトの不在” として表現できるイベントによって状況は複雑になります。例えば、オクルージョンやフレーム外の動きによって発生する可能性があります。このような場合、画像内の現在の位置や、最後に位置が判明してからの経過時間に関係なく、オブジェクトを “前に見た” ものとして認識するほうがよいでしょう。
このシナリオでは、次のネットワークを使用できます。人物の画像を取得し、埋め込み (人物の外観を表す高次元空間のベクトル) を評価します。このベクトルはさらなる評価に使用できます: 同じ人物に対応する画像には、L2 メトリック (ユークリッド距離) による “近い” 埋め込みベクトルが含まれます。
パフォーマンスと精度の間でさまざまなトレードオフを持つモデルが複数あります (モデルが大きいほどパフォーマンスが向上すると予想されます)。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
0.588 |
1.107 |
|
0.174 |
0.183 |
|
0.564 |
0.595 |
|
1.170 |
1.234 |
|
1.993 |
2.103 |
セマンティック・セグメント化モデル¶
セマンティックのセグメント化は、オブジェクト検出問題の拡張です。セマンティック・セグメント化モデルは、境界ボックスを返す代わりに、入力画像の “ペイントされた” バージョンを返します。ここで、各ピクセルの “色” は特定のクラスを表します。これらのネットワークは、それぞれの物体検出ネットワークよりもはるかに大規模ですが、物体の (ピクセルレベルでの) 位置特定が向上し、複雑な形状の領域 (道路上の空きスペースなど) を検出できます。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
4.770 |
0.184 |
|
58.572 |
6.686 |
|
260.1 |
31.03 |
|
151.82 |
25.45 |
|
151.82 |
25.45 |
|
151.82 |
25.45 |
インスタンス・セグメント化モデル¶
インスタンスのセグメント化は、オブジェクト検出とセマンティックのセグメント化の問題の拡張です。各オブジェクト・インスタンスの周囲の境界ボックスを予測する代わりに、インスタンスのセグメント化モデルはすべてのインスタンスのピクセル単位のマスクを出力します。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
423.0842 |
48.3732 |
|
828.6324 |
101.236 |
|
147.2352 |
49.8328 |
|
13.9672 |
10.5674 |
|
29.334 |
13.5673 |
|
4.8492 |
7.2996 |
人物姿勢推定モデル¶
人物の姿勢推定タスクは、入力画像やビデオ内のすべての人物のポーズ、つまりキーポイントとキーポイント間の接続で構成される体の骨格を予測します。キーポイントは体の関節、つまり耳、目、鼻、肩、膝などです。これには、トップダウンとボトムアップの 2 つの主要なグループがあります。最初に、特定のフレーム内で人物を検出し、検出をトリミングまたは再スケールしてから、検出ごとに姿勢推定ネットワークを実行します。これらの方法は非常に正確です。2 つ目では、指定されたフレーム内のすべてのキーポイントを検索し、人物インスタンスごとにグループ化します。これにより、ネットワークが 1 回だけ実行されるため、前よりも高速になります。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
15.435 |
4.099 |
|
5.9393 |
8.1504 |
|
8.8720 |
8.1504 |
|
14.3707 |
8.1504 |
画像処理¶
ディープラーニング・モデルは、出力の品質を向上させるため、さまざまな画像処理タスクに応用できます。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
11.654 |
0.030 |
|
30.97 |
16.062 |
|
1.379 |
0.003 |
テキスト検出¶
さまざまなアプリケーションでのテキスト検出のためのディープラーニング・モデル。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
51.256 |
6.747 |
|
23.305 |
4.328 |
|
7.718 |
2.259 |
テキスト認識¶
さまざまなアプリケーションでのテキスト認識のためのディープラーニング・モデル。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
1.485 |
5.568 |
|
0.5442 |
2.839 |
|
encoder |
12.4 |
398 |
decoder |
0.03 |
4.33 |
encoder |
9.27 |
88.1 |
decoder |
0.08 |
4.28 |
0.792 |
5.555 |
|
117.136 |
15.31 |
|
134.513 |
17.270 |
|
1.3182 |
0.1413 |
|
encoder |
16.56 |
1.86 |
decoder |
1.69 |
2.56 |
encoder |
12.8447 |
0.2017 |
decoder |
8.6838 |
2.5449 |
テキスト・スポッティング¶
テキスト・スポッティング (検出と認識の同時) のためのディープラーニング・モデル。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
text-spotting-0005-detector |
184.495 |
27.010 |
text-spotting-0005-recognizer-encoder |
2.082 |
1.328 |
text-spotting-0005-recognizer-decoder |
0.002 |
0.273 |
動作認識モデル¶
行動認識モデルは、短いビデオクリップ (入力ビデオからサンプリングされたフレームを累積することによって形成されるテンソル) で実行されているアクションを予測します。一部のモデル (例えば、driver-action-recognition-adas-0002
では、事前に計算された高レベルの空間または時空間) 特徴 (埋め込み) を個々のクリップの断片から使用し、それらを時間モデルに集約して、分類スコアを持つベクトルを予測します。埋め込みを計算するモデルはエンコーダーと呼ばれ、実際のラベルを予測するモデルはデコーダーと呼ばれます。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
driver-action-recognition-adas-0002-encoder |
0.676 |
2.863 |
driver-action-recognition-adas-0002-decoder |
0.147 |
4.205 |
action-recognition-0001-encoder |
7.340 |
21.276 |
action-recognition-0001-decoder |
0.147 |
4.405 |
6.660 |
4.133 |
|
4.227 |
4.113 |
|
3.636 |
11.173 |
画像検索¶
画像検索用のディープラーニング・モデル (‘probe’ 画像との類似性に基づいて ‘gallery’ 画像をランク付け)。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
0.613 |
2.535 |
質問への回答¶
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
246.93 |
333.96 |
|
246.93 |
333.96 |
|
246.93 ([1,384] 入力サイズの場合) |
333.96 |
|
23.9 |
57.94 |
|
23.9 |
41.1 |
|
23.9 |
41.1 |
|
23.9 ([1,384] 入力サイズの場合) |
41.1 |
機械翻訳¶
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
23.17 |
69.29 |
|
23.17 |
69.29 |
|
23.19 |
77.47 |
|
23.19 |
77.47 |
テキスト読み上げ¶
音声合成用のディープラーニング・モデル (メルスペクトログラム生成と波形生成)。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
text-to-speech-en-0001-duration-prediction |
15.84 |
13.569 |
text-to-speech-en-0001-regression |
7.65 |
4.96 |
text-to-speech-en-0001-generation |
48.38 |
12.77 |
音声合成用のディープラーニング・モデル (メルスペクトログラム生成と波形生成)。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
text-to-speech-en-multi-0001-duration-prediction |
28.75 |
26.18 |
text-to-speech-en-multi-0001-regression |
7.81 |
5.12 |
text-to-speech-en-multi-0001-generation |
48.38 |
12.77 |
アクション・シーケンスのモデル化¶
オンライン・シーケンス・モデリング用のディープラーニング・モデル。
モデル名 |
複雑性 (GFLOPs) |
サイズ (Mp) |
---|---|---|
0.11 |
2.537 |
|
0.049 |
1.02 |
|
smartlab-action-recognition-0001-encoder-side |
0.611 |
3.387 |
smartlab-action-recognition-0001-encoder-top |
0.611 |
3.387 |
smartlab-action-recognition-0001-decoder |
0.008 |
4.099 |
法務上の注意書き¶
Caffe、Caffe2、Keras、MXNet、PyTorch、および TensorFlow は、それぞれの所有者の商標またはブランド名です。このドキュメントで使用されているすべての会社名、製品名、およびサービス名は、識別のみを目的としています。これらの名前、商標、ブランドの使用は、承認を意味するものではありません。