OpenVINO™ ツールキットの公開された事前トレーニング済みモデル概要¶
OpenVINO™ ツールキットは、学習やデモの目的、またはディープラーニング・ソフトウェアの開発に使用できる、公開された事前トレーニング済みモデルセットを提供します。最新バージョンは、GitHub のリポジトリーで入手できます。パブリックの事前トレーニング・モデルのデバイスサポートの表は、各モデルでサポートされるデバイスをまとめたものです。
OpenVINO™ モデル・ダウンローダーやその他の自動化ツールを使用して、モデルをダウンロードし、OpenVINO™ IR 形式 (*.xml + *.bin) に変換できます。
分類モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
AntiSpoofNet |
PyTorch* |
3.81% |
0.15 |
3.02 |
|
ConvNeXt Tiny |
PyTorch* |
82.05%/95.86% |
8.9419 |
28.5892 |
|
DenseNet 121 |
74.46%/92.13% |
5.723~5.7287 |
7.971 |
||
DLA 34 |
PyTorch* |
74.64%/92.06% |
6.1368 |
15.7344 |
|
EfficientNet B0 |
TensorFlow* |
75.70%/92.76% |
0.819 |
5.268 |
|
EfficientNet V2 B0 |
PyTorch* |
78.36%/94.02% |
1.4641 |
7.1094 |
|
EfficientNet V2 Small |
PyTorch* |
84.29%/97.26% |
16.9406 |
21.3816 |
|
HBONet 1.0 |
PyTorch* |
73.1%/91.0% |
0.6208 |
4.5443 |
|
HBONet 0.25 |
PyTorch* |
57.3%/79.8% |
0.0758 |
1.9299 |
|
Inception (GoogleNet) V1 |
TensorFlow* |
69.814%/89.6% |
3.016~3.266 |
6.619~6.999 |
|
Inception (GoogleNet) V2 |
TensorFlow* |
74.084%/91.798% |
4.058 |
11.185 |
|
Inception (GoogleNet) V3 |
TensorFlow* |
77.904%/93.808% |
11.469 |
23.817 |
|
Inception (GoogleNet) V4 |
TensorFlow* |
80.204%/95.21% |
24.584 |
42.648 |
|
Inception-ResNet V2 |
TensorFlow* |
77.82%/94.03% |
22.227 |
30.223 |
|
LeViT 128S |
PyTorch* |
76.54%/92.85% |
0.6177 |
8.2199 |
|
MixNet L |
TensorFlow* |
78.30%/93.91% |
0.565 |
7.3 |
|
MobileNet V1 0.25 128 |
Caffe* |
40.54%/65% |
0.028 |
0.468 |
|
MobileNet V1 1.0 224 |
Caffe* |
71.03%/89.94% |
1.148 |
4.221 |
|
MobileNet V2 1.0 224 |
TensorFlow* |
71.85%/90.69% |
0.615~0.876 |
3.489 |
|
MobileNet V2 1.4 224 |
TensorFlow* |
74.09%/91.97% |
1.183 |
6.087 |
|
MobileNet V3 Small 1.0 |
TensorFlow* |
67.36%/87.44% |
0.1168 |
2.537 |
|
MobileNet V3 Large 1.0 |
TensorFlow* |
75.30%/92.62% |
0.4450 |
5.4721 |
|
NFNet F0 |
PyTorch* |
83.34%/96.56% |
24.8053 |
71.4444 |
|
RegNetX-3.2GF |
PyTorch* |
78.17%/94.08% |
6.3893 |
15.2653 |
|
open-closed-eye-0001 |
PyTorch* |
95.84% |
0.0014 |
0.0113 |
|
RepVGG A0 |
PyTorch* |
72.40%/90.49% |
2.7286 |
8.3094 |
|
RepVGG B1 |
PyTorch* |
78.37%/94.09% |
23.6472 |
51.8295 |
|
RepVGG B3 |
PyTorch* |
80.50%/95.25% |
52.4407 |
110.9609 |
|
ResNeSt 50 |
PyTorch* |
81.11%/95.36% |
10.8148 |
27.4493 |
|
ResNet 18 |
PyTorch* |
69.754%/89.088% |
3.637 |
11.68 |
|
ResNet 34 |
PyTorch* |
73.30%/91.42% |
7.3409 |
21.7892 |
|
ResNet 50 |
PyTorch* |
75.168%/92.212% |
6.996~8.216 |
25.53 |
|
ReXNet V1 x1.0 |
PyTorch* |
77.86%/93.87% |
0.8325 |
4.7779 |
|
Shufflenet V2 x1.0 |
PyTorch* |
69.36%/88.32% |
0.2957 |
2.2705 |
|
Swin Transformer Tiny, window size=7 |
PyTorch* |
81.38%/95.51% |
9.0280 |
28.8173 |
|
T2T-ViT, transformer layers number=14 |
PyTorch* |
81.44%/95.66% |
9.5451 |
21.5498 |
セグメント化モデル¶
セマンティックのセグメント化は、オブジェクト検出問題の拡張です。セマンティック・セグメント化モデルは、境界ボックスを返す代わりに、入力画像の “ペイントされた” バージョンを返します。ここで、各ピクセルの “色” は特定のクラスを表します。これらのネットワークは、それぞれの物体検出ネットワークよりもはるかに大きくなりますが、物体の (ピクセルレベルでの) 位置特定が向上し、複雑な形状の領域を検出できます。
セマンティック・セグメント化モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
DeepLab V3 |
TensorFlow* |
68.41% |
11.469 |
23.819 |
|
DRN-D-38 |
PyTorch* |
71.31% |
1768.3276 |
25.9939 |
|
Erfnet |
PyTorch* |
76.47% |
11.13 |
7.87 |
|
HRNet V2 C1 セグメント化 |
PyTorch* |
77.69% |
81.993 |
66.4768 |
|
Fastseg MobileV3Large LR-ASPP, F=128 |
PyTorch* |
72.67% |
140.9611 |
3.2 |
|
Fastseg MobileV3Small LR-ASPP, F=128 |
PyTorch* |
67.15% |
69.2204 |
1.1 |
|
PSPNet R-50-D8 |
PyTorch* |
70.6% |
357.1719 |
46.5827 |
インスタンス・セグメント化モデル¶
インスタンスのセグメント化は、オブジェクト検出とセマンティックのセグメント化の問題の拡張です。各オブジェクト・インスタンスの周囲の境界ボックスを予測する代わりに、インスタンスのセグメント化モデルはすべてのインスタンスのピクセル単位のマスクを出力します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
Mask R-CNN Inception ResNet V2 |
TensorFlow* |
39.86%/35.36% |
675.314 |
92.368 |
|
Mask R-CNN ResNet 50 |
TensorFlow* |
29.75%/27.46% |
294.738 |
50.222 |
|
YOLACT ResNet 50 FPN |
PyTorch* |
28.0%/30.69% |
118.575 |
36.829 |
3D セマンティック・セグメント化モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
Brain Tumor Segmentation 2 |
PyTorch* |
91.4826% |
300.801 |
4.51 |
オブジェクト検出モデル¶
いくつかの検出モデルを使用して、顔、人、車両などの最も一般的なオブジェクトのセットを検出できます。ほとんどのネットワークは SSD ベースであり、精度とパフォーマンスの適度なトレードオフを提供します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
CTPN |
TensorFlow* |
73.67% |
55.813 |
17.237 |
|
CenterNet (CTDET with DLAV0) 512x512 |
ONNX* |
44.2756% |
62.211 |
17.911 |
|
DETR-ResNet50 |
PyTorch* |
39.27%/42.36% |
174.4708 |
41.3293 |
|
EfficientDet-D0 |
TensorFlow* |
31.95% |
2.54 |
3.9 |
|
EfficientDet-D1 |
TensorFlow* |
37.54% |
6.1 |
6.6 |
|
FaceBoxes |
PyTorch* |
83.565% |
1.8975 |
1.0059 |
|
Faster R-CNN with Inception-ResNet v2 |
TensorFlow* |
40.69% |
30.687 |
13.307 |
|
Faster R-CNN with ResNet 50 |
TensorFlow* |
31.09% |
57.203 |
29.162 |
|
Mobilenet-yolo-v4-syg |
Keras* |
86.35% |
65.981 |
61.922 |
|
NanoDet with ShuffleNetV2 1.5x, size=416 |
PyTorch* |
27.38%/26.63% |
2.3895 |
2.0534 |
|
NanoDet Plus with ShuffleNetV2 1.5x, size=416 |
PyTorch* |
34.53%/33.77% |
3.0147 |
2.4614 |
|
RetinaFace with ResNet 50 |
PyTorch* |
91.78% |
88.8627 |
27.2646 |
|
RetinaNet with Resnet 50 |
TensorFlow* |
33.15% |
238.9469 |
64.9706 |
|
R-FCN with Resnet-101 |
TensorFlow* |
28.40%/45.02% |
53.462 |
171.85 |
|
SSD with MobileNet |
TensorFlow* |
23.32% |
2.316~2.494 |
5.783~6.807 |
|
SSD with MobileNet FPN |
TensorFlow* |
35.5453% |
123.309 |
36.188 |
|
SSD lite with MobileNet V2 |
TensorFlow* |
24.2946% |
1.525 |
4.475 |
|
SSD with ResNet 34 1200x1200 |
PyTorch* |
20.7198%/39.2752% |
433.411 |
20.058 |
|
Ultra Lightweight Face Detection RFB 320 |
PyTorch* |
84.78% |
0.2106 |
0.3004 |
|
Ultra Lightweight Face Detection slim 320 |
PyTorch* |
83.32% |
0.1724 |
0.2844 |
|
Vehicle License Plate Detection Barrier |
TensorFlow* |
99.52% |
0.271 |
0.547 |
|
YOLO v1 Tiny |
TensorFlow.js* |
54.79% |
6.9883 |
15.8587 |
|
YOLO v2 Tiny |
Keras* |
27.3443%/29.1184% |
5.4236 |
11.2295 |
|
YOLO v2 |
Keras* |
53.1453%/56.483% |
63.0301 |
50.9526 |
|
YOLO v3 |
Keras* |
62.2759%/67.7221% |
65.9843~65.998 |
61.9221~61.930 |
|
YOLO v3 Tiny |
Keras* |
35.9%/39.7% |
5.582 |
8.848~8.8509 |
|
YOLO v4 |
Keras* |
71.23%/77.40%/50.26% |
129.5567 |
64.33 |
|
YOLO v4 Tiny |
Keras* |
6.9289 |
6.0535 |
||
YOLOF |
PyTorch* |
60.69%/66.23%/43.63% |
175.37942 |
48.228 |
|
YOLOX Tiny |
PyTorch* |
47.85%/52.56%/31.82% |
6.4813 |
5.0472 |
顔認識モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
FaceNet |
TensorFlow* |
99.14% |
2.846 |
23.469 |
|
LResNet100E-IR,ArcFace@ms1m-refine-v2 |
MXNet* |
99.68% |
24.2115 |
65.1320 |
人物姿勢推定モデル¶
人物の姿勢推定タスクは、入力画像やビデオ内のすべての人物のポーズ、つまりキーポイントとキーポイント間の接続で構成される体の骨格を予測します。キーポイントは体の関節、つまり耳、目、鼻、肩、膝などです。これには、トップダウンとボトムアップの 2 つの主要なグループがあります。最初に、特定のフレーム内で人物を検出し、検出をトリミングまたは再スケールしてから、検出ごとに姿勢推定ネットワークを実行します。これらの方法は非常に正確です。2 つ目では、指定されたフレーム内のすべてのキーポイントを検索し、人物インスタンスごとにグループ化します。これにより、ネットワークが 1 回だけ実行されるため、前よりも高速になります。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
human-pose-estimation-3d-0001 |
PyTorch* |
100.44437mm |
18.998 |
5.074 |
|
single-human-pose-estimation-0001 |
PyTorch* |
69.0491% |
60.125 |
33.165 |
|
higher-hrnet-w32-human-pose-estimation |
PyTorch* |
64.64% |
92.8364 |
28.6180 |
単眼深度推定モデル¶
単眼深度推定タスクは、単一の入力画像に基づいて奥行き (または逆奥行き) マップを予測します。このタスクには一般的な設定ではあいまいさが含まれるため、結果として得られる深度マップは、多くの場合、未知のスケール係数しか定義されません。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
midasnet |
PyTorch* |
0.07071 |
207.25144 |
104.081 |
|
FCRN ResNet50-Upproj |
TensorFlow* |
0.573 |
63.5421 |
34.5255 |
画像修復モデル¶
画像修復タスクは、画像の穴を埋めるために適切なピクセル情報を推定します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
GMCNN Inpainting |
TensorFlow* |
33.47Db |
691.1589 |
12.7773 |
|
Hybrid-CS-Model-MRI |
TensorFlow* |
34.27Db |
146.6037 |
11.3313 |
スタイル転送モデル¶
スタイル転送タスクは、ある画像のスタイルを別の画像に転送します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
fast-neural-style-mosaic-onnx |
ONNX* |
12.04 dB |
15.518 |
1.679 |
動作認識モデル¶
動作認識タスクは、短いビデオクリップ (入力ビデオからサンプリングされたフレームを累積することで形成されるテンソル) で実行されているアクションを予測します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
RGB-I3D、ImageNet* で事前トレーニング済み |
TensorFlow* |
64.83%/84.58% |
278.9815 |
12.6900 |
|
common-sign-language-0001 |
PyTorch* |
93.58% |
4.2269 |
4.1128 |
カラー化モデル¶
カラー化タスクは、グレースケール画像からシーンの色を予測します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
colorization-v2 |
PyTorch* |
26.99 dB |
83.6045 |
32.2360 |
|
colorization-siggraph |
PyTorch* |
27.73 dB |
150.5441 |
34.0511 |
音響分類モデル¶
音響分類タスクは、オーディオの断片にどのようなサウンドが含まれているかを予測します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
ACLNet |
PyTorch* |
86%/92% |
1.4 |
2.7 |
|
ACLNet-int8 |
PyTorch* |
87%/93% |
1.41 |
2.71 |
音声認識モデル¶
音声認識タスクは、会話言語を認識してテキストに翻訳します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
DeepSpeech V0.6.1 |
TensorFlow* |
7.55% |
0.0472 |
47.2 |
|
DeepSpeech V0.8.2 |
TensorFlow* |
6.13% |
0.0472 |
47.2 |
|
QuartzNet |
PyTorch* |
3.86% |
2.4195 |
18.8857 |
|
Wav2Vec 2.0 Base |
PyTorch* |
3.39% |
26.843 |
94.3965 |
画像翻訳モデル¶
画像翻訳タスクは、見本に基づいて出力を生成します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
CoCosNet |
PyTorch* |
12.93 dB |
1080.7032 |
167.9141 |
光学文字認識モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
license-plate-recognition-barrier-0007 |
TensorFlow* |
98% |
0.347 |
1.435 |
位置認識モデル¶
位置認識タスクは、指定された照会写真の場所を迅速かつ正確に認識します。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
NetVLAD |
TensorFlow* |
82.0321% |
36.6374 |
149.0021 |
JPEG アーティファクト除去モデル¶
JPEG 形式から画像を復元するタスクです。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
FBCNN |
PyTorch* |
34.34Db |
1420.78235 |
71.922 |
前景物体検出モデル¶
前景物体検出は、視覚的注意メカニズムに基づいたタスクであり、アルゴリズムは、シーンまたは画像上の周囲の領域よりも注意深くオブジェクトまたは領域を探索することを目的としています。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
F3Net |
PyTorch* |
84.21% |
31.2883 |
25.2791 |
テキスト予測モデル¶
テキスト予測は、テキスト内の前の単語がすべて与えられた場合に、次の単語を予測するタスクです。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
インテル® GPT-2 |
PyTorch* |
29.00% |
293.0489 |
175.6203 |
テキスト認識モデル¶
シーンテキスト認識は、指定された画像上のテキストを認識するタスクです。研究者は、さまざまな形状、フォント、背景のテキストを認識できるアルゴリズムの開発を競っています。データセットの詳細については、こちらを参照してください。報告されたメトリックは、大文字と小文字を区別しないモードで ICDAR13 の英数字サブセット (1015 枚の画像) にわたって収集されます。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
Resnet-FC |
PyTorch* |
90.94% |
40.3704 |
177.9668 |
|
ViTSTR Small patch=16, size=224 |
PyTorch* |
90.34% |
9.1544 |
21.5061 |
テキスト読み上げモデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
ForwardTacotron |
PyTorch* |
forward-tacotron: |
|
|
|
WaveRNN |
PyTorch* |
wavernn: |
|
|
固有表現認識モデル¶
固有表現認識 (NER) は、テキスト内のエンティティーに対応するタイプをタグ付けするタスクです。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
bert-base-NER |
PyTorch* |
94.45% |
22.3874 |
107.4319 |
車両再識別モデル¶
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
vehicle-reid-0001 |
PyTorch* |
96.31%/85.15% |
2.643 |
2.183 |
背景マットモデル¶
背景マット化は、画像またはビデオ内で前景を背景から分離する手法です。一部のピクセルは背景だけでなく前景にも属し、そのようなピクセルは部分ピクセルまたは混合ピクセルと呼ばれます。これにより、結果がバイナリーマスクとなるセグメント化アプローチと背景マット化が区別されます。
モデル名 |
実装 |
OMZ モデル名 |
精度 |
GFlops |
mParams |
---|---|---|---|---|---|
background-matting-mobilenetv2 |
PyTorch* |
4.32/1.0/2.48/2.7 |
6.7419 |
5.052 |
|
modnet-photographic-portrait-matting |
PyTorch* |
5.21/727.95 |
31.1564 |
6.4597 |
|
modnet-webcam-portrait-matting |
PyTorch* |
5.66/762.52 |
31.1564 |
6.4597 |
|
robust-video-matting-mobilenetv3 |
PyTorch* |
20.8/15.1/4.42/4.05 |
9.3892 |
3.7363 |
法務上の注意書き¶
Caffe、Caffe2、Keras、MXNet、PyTorch、および TensorFlow は、それぞれの所有者の商標またはブランド名です。このドキュメントで使用されているすべての会社名、製品名、およびサービス名は、識別のみを目的としています。これらの名前、商標、ブランドの使用は、承認を意味するものではありません。