OpenVINO™ を使用した YOLOv7 の変換と最適化#

この Jupyter ノートブックは、ローカルへのインストール後にのみ起動できます。

GitHub

YOLOv7 アルゴリズムは、コンピューター・ビジョンとマシンラーニングのコミュニティーに大きな波を起こしています。これは、画像を入力として受け取り、画像内の各オブジェクトの境界ボックスとクラス確率を予測することで、画像認識タスクを実行するリアルタイムのオブジェクト検出アルゴリズムです。

YOLO は “You Only Look Once (一度だけ見る)” の略で、人気のあるリアルタイム・オブジェクト検出アルゴリズムのファミリーです。オリジナルの YOLO オブジェクト検出器は 2016 年に初めてリリースされました。以来、YOLO のさまざまなバージョンやバリエーションが提案され、それぞれがパフォーマンスと効率を大幅に向上させています。YOLOv7 は YOLO モデルファミリーの進化の次の段階であり、推論コストを増やすことなく、リアルタイムのオブジェクト検出精度を大幅に向上させます。実現に関する詳細については、オリジナルの論文リポジトリーを参照してください。

リアルタイムの物体検出は、コンピューター・ビジョン・システムの主要コンポーネントとして使用されます。リアルタイム物体検出モデルを使用するアプリケーションには、ビデオ分析、ロボット工学、自動運転車、複数物体の追跡と物体の計数、医療画像分析などがあります。

このチュートリアルでは、OpenVINO を使用して PyTorch YOLO V7 を実行および最適化する手順を段階的に説明します。

このチュートリアルは次のステップで構成されます:

  • PyTorch モデルの準備

  • データセットをダウンロードして準備

  • 元のモデルを検証

  • PyTorch モデルから ONNX への変換

  • ONNX モデルを OpenVINO IR に変換

  • 変換されたモデルを検証

  • 最適化パイプラインの準備と実行

  • FP32 モデルと量子化モデルの精度を比較します。

  • FP32 モデルと量子化モデルのパフォーマンスを比較します。

目次:

PyTorch モデルを取得#

一般に、PyTorch モデルは、モデルの重みを含む状態辞書によって初期化された torch.nn.Module クラスのインスタンスを表します。リポジトリーで入手できる COCO データセットで事前トレーニングされた YOLOv7 小型モデルを使用します。事前トレーニングされたモデルを取得する一般的な手順は次のとおりです:

  1. モデルクラスのインスタンスを作成します。

  2. 事前トレーニングされたモデルの重みを含むチェックポイント状態辞書をロードします。

  3. 一部の操作を推論モードに切り替えるためモデルを評価に切り替えます。

この場合、モデル作成者は YOLOv7 モデルを ONNX に変換できるツールを提供しているため、これらの手順を手動で実行する必要はありません。

必要条件#

import platform 

%pip install -q "openvino>=2023.1.0" "nncf>=2.5.0" "opencv-python" "seaborn" "onnx" "Pillow" "pandas" "scikit-learn" "torch" "torchvision" "PyYAML>=5.3.1" "tqdm" --extra-index-url https://download.pytorch.org/whl/cpu 

if platform.system() != "Windows":
     %pip install -q "matplotlib>=3.4" 
else:
     %pip install -q "matplotlib>=3.4,<3.7"
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed.This behaviour is the source of the following dependency conflicts. 
descript-audiotools 0.7.2 requires protobuf<3.20,>=3.9.2, but you have protobuf 3.20.3 which is incompatible. 
mobileclip 0.1.0 requires torch==1.13.1, but you have torch 2.3.1+cpu which is incompatible. 
mobileclip 0.1.0 requires torchvision==0.14.1, but you have torchvision 0.18.1+cpu which is incompatible. 
Note: you may need to restart the kernel to use updated packages. 
Note: you may need to restart the kernel to use updated packages.
# `notebook_utils` モジュールを取得 
import requests 

r = requests.get( 

url="https://raw.githubusercontent.com/openvinotoolkit/openvino_notebooks/latest/utils/notebook_utils.py", 
) 

open("notebook_utils.py", "w").write(r.text) 

from notebook_utils import download_file
# YOLOv7 リポジトリーをクローン 
from pathlib import Path 

if not Path("yolov7").exists():     !git clone https://github.com/WongKinYiu/yolov7 
%cd yolov7
Cloning into 'yolov7'... 
remote: Enumerating objects: 1197, done.[K 
remote: Total 1197 (delta 0), reused 0 (delta 0), pack-reused 1197[K 
Receiving objects: 100% (1197/1197), 74.23 MiB | 23.61 MiB/s, done.
Resolving deltas: 100% (520/520), done. /opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/notebooks/yolov7-optimization/yolov7
# 事前トレーニング済みモデルの重みをダウンロード 
MODEL_LINK = "https://github.com/WongKinYiu/yolov7/releases/download/v0.1/yolov7-tiny.pt" 
DATA_DIR = Path("data/") 
MODEL_DIR = Path("model/") 
MODEL_DIR.mkdir(exist_ok=True) 
DATA_DIR.mkdir(exist_ok=True) 

download_file(MODEL_LINK, directory=MODEL_DIR, show_progress=True)
model/yolov7-tiny.pt: 0%|          | 0.00/12.1M [00:00<?, ?B/s]
PosixPath('/opt/home/k8sworker/ci-ai/cibuilds/ov-notebook/OVNotebookOps-727/.workspace/scm/ov-notebook/notebooks/yolov7-optimization/yolov7/model/yolov7-tiny.pt')

モデル推論を確認#

detect.py スクリプトは PyTorch モデル推論を実行し、結果として画像を保存します。

!python -W ignore detect.py --weights model/yolov7-tiny.pt --conf 0.25 --img-size 640 --source inference/images/horses.jpg
Namespace(agnostic_nms=False, augment=False, classes=None, conf_thres=0.25, device='', exist_ok=False, img_size=640, iou_thres=0.45, name='exp', no_trace=False, nosave=False, project='runs/detect', save_conf=False, save_txt=False, source='inference/images/horses.jpg', update=False, view_img=False, weights=['model/yolov7-tiny.pt']) 
YOLOR 🚀 v0.1-128-ga207844 torch 2.3.1+cpu CPU 

Fusing layers... 
Model Summary: 200 layers, 6219709 parameters, 229245 gradients, 13.7 GFLOPS 
  Convert model to Traced-model... 
  traced_script_module saved! 
  model is traced!

5 horses, Done. (77.8ms) Inference, (0.9ms) NMS 
  The image with the result is saved in: runs/detect/exp/horses.jpg 
Done.(0.085s)
from PIL import Image 

# 予測結果を視覚化 
Image.open("runs/detect/exp/horses.jpg")
../_images/yolov7-optimization-with-output_10_0.png

ONNX へエクスポート#

モデルの ONNX 形式をエクスポートするには、export.py スクリプトを使用します。引数を確認します。

!python export.py --help
Import onnx_graphsurgeon failure: No module named 'onnx_graphsurgeon' 
usage: export.py [-h] [--weights WEIGHTS] [--img-size IMG_SIZE [IMG_SIZE ...]]
                 [--batch-size BATCH_SIZE] [--dynamic] [--dynamic-batch] 
                 [--grid] [--end2end] [--max-wh MAX_WH] [--topk-all TOPK_ALL] 
                 [--iou-thres IOU_THRES] [--conf-thres CONF_THRES] 
                 [--device DEVICE] [--simplify] [--include-nms] [--fp16] 
                 [--int8] 

optional arguments:
  -h, --help            show this help message and exit 
  --weights WEIGHTS     weights path 
  --img-size IMG_SIZE [IMG_SIZE ...] 
                        image size 
  --batch-size BATCH_SIZE 
                        batch size 
  --dynamic             dynamic ONNX axes 
  --dynamic-batch       dynamic batch onnx for tensorrt and onnx-runtime 
  --grid                export Detect() layer grid 
  --end2end             export end2end onnx 
  --max-wh MAX_WH       None for tensorrt nms, int value for onnx-runtime nms 
  --topk-all TOPK_ALL   topk objects for every images 
  --iou-thres IOU_THRES 
                       iou threshold for NMS 
  --conf-thres CONF_THRES 
                        conf threshold for NMS 
  --device DEVICE       cuda device, i.e. 0 or 0,1,2,3 or cpu 
  --simplify            simplify onnx model 
  --include-nms         export end2end onnx 
  --fp16                CoreML FP16 half-precision export 
  --int8                CoreML INT8 quantization

最も重要なパラメーター:

  • --weights - モデル重みチェックポイントへのパス

  • --img-size - onnx トレースの入力画像のサイズ

PyTorch から ONNX モデルをエクスポートする際に、モデルに後処理結果を含​​める構成可能なパラメーターを設定することがあります。

  • --end2end - 後処理を含む完全なモデルを onnx にエクスポート

  • --grid - 検出レイヤーをモデルの一部としてエクスポート

  • --topk-all - すべての画像の上位 k 要素

  • --iou-thres - NMS の結合しきい値を超える交点

  • --conf-thres - 最小信頼しきい値

  • --max-wh - NMS の境界ボックスの最大幅と高さ

モデルに後処理全体を含めると、よりパフォーマンスの高い結果を実現できますが、同時にモデルの柔軟性が低下し、完全な精度の再現性が保証されなくなります。元の pytorch モデルの結果形式を保持するのに --grid パラメーターのみを追加するのはそのためです。end2end ONNX モデルの操作方法を理解したい場合は、ノートブックを確認してください。

!python -W ignore export.py --weights model/yolov7-tiny.pt --grid
Import onnx_graphsurgeon failure: No module named 'onnx_graphsurgeon' 
Namespace(batch_size=1, conf_thres=0.25, device='cpu', dynamic=False, dynamic_batch=False, end2end=False, fp16=False, grid=True, img_size=[640, 640], include_nms=False, int8=False, iou_thres=0.45, max_wh=None, simplify=False, topk_all=100, weights='model/yolov7-tiny.pt') 
YOLOR 🚀 v0.1-128-ga207844 torch 2.3.1+cpu CPU 

Fusing layers...
Model Summary: 200 layers, 6219709 parameters, 6219709 gradients, 13.7 GFLOPS 

Starting TorchScript export with torch 2.3.1+cpu...TorchScript export success, saved as model/yolov7-tiny.torchscript.pt 
CoreML export failure: No module named 'coremltools' 

Starting TorchScript-Lite export with torch 2.3.1+cpu...TorchScript-Lite export success, saved as model/yolov7-tiny.torchscript.ptl 

Starting ONNX export with onnx 1.16.1...
ONNX export success, saved as model/yolov7-tiny.onnx 

Export complete (2.69s). Visualize with lutzroeder/netron.

ONNX モデルを OpenVINO 中間表現 (IR) に変換#

ONNX モデルは OpenVINO ランタイムによって直接サポートされていますが、OpenVINO モデル・トランスフォーメーション API 機能を活用するには、それらを IR 形式に変換すると便利です。モデル・トランスフォーメーション APIov.convert_model python 関数を使用してモデルを変換できます。この関数は、Python インターフェイスで使用できる OpenVINO モデルクラスのインスタンスを返します。ただし、将来の実行のために、ov.save_model を使用して OpenVINO IR 形式でデバイスに保存することもできます。

import openvino as ov 

model = ov.convert_model("model/yolov7-tiny.onnx") 
# IR を保存するシリアル化モデル 
ov.save_model(model, "model/yolov7-tiny.xml")

モデルの推論を検証#

モデルの動作をテストするため、detect.py に似た推論パイプラインを作成します。パイプラインは、前処理ステップ、OpenVINO モデルの推論、および境界ボックスを取得する結果の後処理で構成されます。

前処理#

モデル入力は [1, 3, 640, 640] の形状を持つ N, C, H, W 形式のテンソルです。ここで:

  • N - バッチ内の画像数 (バッチサイズ)

  • C - 画像チャネル

  • H - 画像の髙さ

  • W - 画像の幅

モデルは、RGB チャネル形式で [0, 1] の範囲で正規化された画像を想定しています。モデルのサイズに合わせて画像のサイズを変更するには、幅と高さのアスペクト比が維持されるレターボックスのサイズ変更アプローチが使用されます。yolov7 リポジトリーで定義されています。

特定の形状を維持するため、前処理によってパディングが自動的に有効になります。

import numpy as np 
import torch 
from PIL import Image 
from utils.datasets import letterbox from utils.plots import plot_one_box 

def preprocess_image(img0: np.ndarray): 
    """ 
    Preprocess image according to YOLOv7 input requirements. 
    Takes image in np.array format, resizes it to specific size using letterbox resize, converts color space from BGR (default in OpenCV) to RGB and changes data layout from HWC to CHW.

    Parameters: 
        img0 (np.ndarray): image for preprocessing 
    Returns: 
        img (np.ndarray): image after preprocessing 
        img0 (np.ndarray): original image 
    """ 
    # リサイズ 
    img = letterbox(img0, auto=False)[0] 

    # 変換 
    img = img.transpose(2, 0, 1) 
    img = np.ascontiguousarray(img) 
    return img, img0 

def prepare_input_tensor(image: np.ndarray): 
    """ 
    Converts preprocessed image to tensor format according to YOLOv7 input requirements.
    Takes image in np.array format with unit8 data in [0, 255] range and converts it to torch.Tensor object with float data in [0, 1] range 

    Parameters: 
        image (np.ndarray): image for conversion to tensor 
    Returns: 
        input_tensor (torch.Tensor): float tensor ready to use for YOLOv7 inference 
    """ 
    input_tensor = image.astype(np.float32) # uint8 to fp16/32 
    input_tensor /= 255.0 # 0 - 255 to 0.0 - 1.0 

    if input_tensor.ndim == 3: 
        input_tensor = np.expand_dims(input_tensor, 0) 
    return input_tensor 

# 視覚化のためのラベル名 
DEFAULT_NAMES = [ 
    "person", 
    "bicycle", 
    "car", 
    "motorcycle", 
    "airplane", 
    "bus", 
    "train", 
    "truck", 
    "boat", 
    "traffic light", 
    "fire hydrant", 
    "stop sign", 
    "parking meter", 
    "bench", 
    "bird", 
    "cat", 
    "dog", 
    "horse", 
    "sheep", 
    "cow", 
    "elephant", 
    "bear", 
    "zebra", 
    "giraffe", 
    "backpack", 
    "umbrella", 
    "handbag", 
    "tie", 
    "suitcase", 
    "frisbee", 
    "skis", 
    "snowboard", 
    "sports ball", 
    "kite", 
    "baseball bat", 
    "baseball glove", 
    "skateboard", 
    "surfboard", 
    "tennis racket", 
    "bottle", 
    "wine glass", 
    "cup", 
    "fork", 
    "knife", 
    "spoon", 
    "bowl", 
    "banana", 
    "apple", 
    "sandwich", 
    "orange", 
    "broccoli", 
    "carrot", 
    "hot dog", 
    "pizza", 
    "donut", 
    "cake", 
    "chair", 
    "couch", 
    "potted plant", 
    "bed", 
    "dining table", 
    "toilet", 
    "tv", 
    "laptop", 
    "mouse", 
    "remote", 
    "keyboard", 
    "cell phone", 
    "microwave", 
    "oven", 
    "toaster", 
    "sink", 
    "refrigerator", 
    "book", 
    "clock", 
    "vase", 
    "scissors", 
    "teddy bear", 
    "hair drier", 
    "toothbrush", 
] 

# モデル・チェックポイントからクラス名を取得 
state_dict = torch.load("model/yolov7-tiny.pt", map_location="cpu") 
if hasattr(state_dict["model"], "module"): 
    NAMES = getattr(state_dict["model"].module, "names", DEFAULT_NAMES) 
else:
    NAMES = getattr(state_dict["model"], "names", DEFAULT_NAMES) 

del state_dict 

# 視覚化のための色 
COLORS = {name: [np.random.randint(0, 255) for _ in range(3)] for i, name in enumerate(NAMES)}

後処理#

モデル出力には検出ボックスの候補が含まれます。これは、B, N, 85 形式の [1,25200,85] の形状を持つテンソルです。ここで:

  • B - バッチサイズ

  • N - 検出ボックスの数

検出ボックスの形式は [x, y, h, w, box_score, class_no_1, …, class_no_80] です。ここで:

  • (x, y) - ボックス中心の生座標

  • h, w - ボックスの生の高さと幅

  • box_score - 検出ボックスの信頼度

  • class_no_1, …, class_no_80 - クラス全体の確率分布。

最終的な予測を得るには、非最大抑制アルゴリズムを適用し、ボックスの座標を元の画像サイズに再スケールする必要があります。

from typing import List, Tuple, Dict 
from utils.general import scale_coords, non_max_suppression 

def detect( 
    model: ov.Model, 
    image_path: Path, 
    conf_thres: float = 0.25, 
    iou_thres: float = 0.45, 
    classes: List[int] = None, 
    agnostic_nms: bool = False, 
): 
    """ 
    OpenVINO YOLOv7 model inference function. Reads image, preprocess it, runs model inference and postprocess results using NMS.
    Parameters: 
        model (Model): OpenVINO compiled model. 
        image_path (Path): input image path. 
        conf_thres (float, *optional*, 0.25): minimal accpeted confidence for object filtering 
        iou_thres (float, *optional*, 0.45): minimal overlap score for remloving objects duplicates in NMS 
        classes (List[int], *optional*, None): labels for prediction filtering, if not provided all predicted labels will be used 
        agnostic_nms (bool, *optiona*, False): apply class agnostinc NMS approach or not 
    Returns: 
        pred (List): list of detections with (n,6) shape, where n - number of detected boxes in format [x1, y1, x2, y2, score, label] 
        orig_img (np.ndarray): image before preprocessing, can be used for results visualization 
        inpjut_shape (Tuple[int]): shape of model input tensor, can be used for output rescaling 
    """ 
    output_blob = model.output(0) 
    img = np.array(Image.open(image_path)) 
    preprocessed_img, orig_img = preprocess_image(img) 
    input_tensor = prepare_input_tensor(preprocessed_img) 
    predictions = torch.from_numpy(model(input_tensor)[output_blob]) 
    pred = non_max_suppression(predictions, conf_thres, iou_thres, classes=classes, agnostic=agnostic_nms) 
    return pred, orig_img, input_tensor.shape 

def draw_boxes( 
    predictions: np.ndarray, 
    input_shape: Tuple[int], 
    image: np.ndarray, 
    names: List[str], 
    colors: Dict[str, int], 
): 
    """ 
    Utility function for drawing predicted bounding boxes on image 
    Parameters: 
        predictions (np.ndarray): list of detections with (n,6) shape, where n - number of detected boxes in format [x1, y1, x2, y2, score, label] 
        image (np.ndarray): image for boxes visualization 
        names (List[str]): list of names for each class in dataset 
        colors (Dict[str, int]): mapping between class name and drawing color 
    Returns: 
        image (np.ndarray): box visualization result 
    """ 
    if not len(predictions): 
        return image 
    # 入力サイズから元の画像サイズにボックスのサイズを変更 
    predictions[:, :4] = scale_coords(input_shape[2:], predictions[:, :4], image.shape).round() 

    # 結果を書き込み 
    for *xyxy, conf, cls in reversed(predictions): 
        label = f"{names[int(cls)]} {conf:.2f}" 
        plot_one_box(xyxy, image, label=label, color=colors[names[int(cls)]], line_thickness=1) 
    return image
core = ov.Core() 
# 変換されたモデルを読み込み 
model = core.read_model("model/yolov7-tiny.xml")

推論デバイスの選択#

OpenVINO を使用して推論を実行するためにドロップダウン・リストからデバイスを選択します

import ipywidgets as widgets 

device = widgets.Dropdown( 
    options=core.available_devices + ["AUTO"], 
    value="AUTO", 
    description="Device:", 
    disabled=False, 
) 

device
Dropdown(description='Device:', index=1, options=('CPU', 'AUTO'), value='AUTO')
# CPU デバイスにモデルをロード 
compiled_model = core.compile_model(model, device.value)
boxes, image, input_shape = detect(compiled_model, "inference/images/horses.jpg") 
image_with_boxes = draw_boxes(boxes[0], input_shape, image, NAMES, COLORS) 
# 結果を視覚化 
Image.fromarray(image_with_boxes)
../_images/yolov7-optimization-with-output_27_0.png

モデルの精度を検証#

データセットのダウンロード#

YOLOv7 tiny は COCO データセットで事前トレーニングされているため、モデルの精度を評価するには、ダウンロードする必要があります。YOLOv7 リポジトリーで提供されている指示に従って、元のモデル評価スクリプトで使用するため、モデルの作成者が使用した形式でアノテーションをダウンロードする必要もあります。

from zipfile import ZipFile 

DATA_URL = "http://images.cocodataset.org/zips/val2017.zip" 
LABELS_URL = "https://github.com/ultralytics/yolov5/releases/download/v1.0/coco2017labels-segments.zip" 

OUT_DIR = Path(".") 

download_file(DATA_URL, directory=OUT_DIR, show_progress=True) 
download_file(LABELS_URL, directory=OUT_DIR, show_progress=True) 

if not (OUT_DIR / "coco/labels").exists(): 
    with ZipFile("coco2017labels-segments.zip", "r") as zip_ref: 
        zip_ref.extractall(OUT_DIR) 
    with ZipFile("val2017.zip", "r") as zip_ref: 
        zip_ref.extractall(OUT_DIR / "coco/images")
val2017.zip: 0%|          | 0.00/778M [00:00<?, ?B/s]
coco2017labels-segments.zip: 0%|          | 0.00/169M [00:00<?, ?B/s]

データローダーを作成#

from collections import namedtuple 
import yaml 
from utils.datasets import create_dataloader from utils.general import check_dataset, box_iou, xywh2xyxy, colorstr 

# データセット構成の読み取り 
DATA_CONFIG = "data/coco.yaml" 
with open(DATA_CONFIG) as f: 
    data = yaml.load(f, Loader=yaml.SafeLoader) 

# Dataloader 
TASK = "val" # トレーニング/検証/テスト画像へのパス 
Option = namedtuple("Options", ["single_cls"]) # 単一クラス評価のためのコマンドライン・オプションの模倣 
opt = Option(False) 
dataloader = create_dataloader(data[TASK], 640, 1, 32, opt, pad=0.5, prefix=colorstr(f"{TASK}: "))[0]
val: Scanning 'coco/val2017' images and labels... 4952 found, 48 missing, 0 empty, 0 corrupted: 100%|██████████| 5000/5000 [00:02<00:00, 2410.16it/s]

評価関数を定義#

この場合、YOLOv7 リポジトリーで提供されている検証メトリックを変更して再利用します (余分な手順を削除)。元のモデル評価手順はこのファイルにあります

import numpy as np 
from tqdm.notebook import tqdm 
from utils.metrics import ap_per_class 

def test( 
    data, 
    model: ov.Model, 
    dataloader: torch.utils.data.DataLoader, 
    conf_thres: float = 0.001, 
    iou_thres: float = 0.65, # NMS 向け 
    single_cls: bool = False, 
    v5_metric: bool = False, 
    names: List[str] = None, 
    num_samples: int = None, 
): 
    """ 
    YOLOv7 accuracy evaluation.Processes validation dataset and compites metrics.

    Parameters: 
        model (ov.Model): OpenVINO compiled model. 
        dataloader (torch.utils.DataLoader): validation dataset. 
        conf_thres (float, *optional*, 0.001): minimal confidence threshold for keeping detections 
        iou_thres (float, *optional*, 0.65): IOU threshold for NMS 
        single_cls (bool, *optional*, False): class agnostic evaluation 
        v5_metric (bool, *optional*, False): use YOLOv5 evaluation approach for metrics calculation 
        names (List[str], *optional*, None): names for each class in dataset 
        num_samples (int, *optional*, None): number samples for testing 
    Returns: 
        mp (float): mean precision 
        mr (float): mean recall 
        map50 (float): mean average precision at 0.5 IOU threshold 
        map (float): mean average precision at 0.5:0.95 IOU thresholds 
        maps (Dict(int, float): average precision per class 
        seen (int): number of evaluated images 
        labels (int): number of labels 
    """ 

    model_output = model.output(0) 
    check_dataset(data) # check 
    nc = 1 if single_cls else int(data["nc"]) # クラスの数 
    iouv = torch.linspace(0.5, 0.95, 10) # mAP@0.5:0.95 向けの iou ベクトル 
    niou = iouv.numel() 

    if v5_metric: 
        print("Testing with YOLOv5 AP metric...") 

    seen = 0 
    p, r, mp, mr, map50, map = 0.0, 0.0, 0.0, 0.0, 0.0, 0.0 
    stats, ap, ap_class = [], [], [] 
    for sample_id, (img, targets, _, shapes) in enumerate(tqdm(dataloader)): 
        if num_samples is not None and sample_id == num_samples: 
            break 
        img = prepare_input_tensor(img.numpy()) 
        targets = targets 
        height, width = img.shape[2:] 

        with torch.no_grad():
            # モデルを実行 
            out = torch.from_numpy(model(ov.Tensor(img))[model_output]) # 推論出力 
            # NMS を実行 
            targets[:, 2:]*= torch.Tensor([width, height, width, height]) # ピクセルへ 

            out = non_max_suppression( 
                out, 
                conf_thres=conf_thres, 
                iou_thres=iou_thres, 
                labels=None, 
                multi_label=True, 
            ) 
        # 画像ごとの統計 
        for si, pred in enumerate(out): 
            labels = targets[targets[:, 0] == si, 1:] 
            nl = len(labels) 
            tcls = labels[:, 0].tolist() if nl else [] # 対象クラス 
            seen += 1 

            if len(pred) == 0: 
                if nl: 
                    stats.append( 
                        ( 
                            torch.zeros(0, niou, dtype=torch.bool), 
                            torch.Tensor(), 
                            torch.Tensor(), 
                            tcls, 
                        ) 
                    ) 
                continue 
            # 予測 
            predn = pred.clone() 
            scale_coords(img[si].shape[1:], predn[:, :4], shapes[si][0], shapes[si][1]) # ネイティブ空間予測 
            # すべての予測を誤りとして割り当 
            correct = torch.zeros(pred.shape[0], niou, dtype=torch.bool, device="cpu") 
            if nl: 
                detected = [] # ターゲット・インデックス 
                tcls_tensor = labels[:, 0] 
                # target boxes 
                tbox = xywh2xyxy(labels[:, 1:5]) 
                scale_coords(img[si].shape[1:], tbox, shapes[si][0], shapes[si][1]) # ネイティブ空間ラベル 
                # ターゲットクラスごと 
                for cls in torch.unique(tcls_tensor): 
                    ti = (cls == tcls_tensor).nonzero(as_tuple=False).view(-1) # 推測インデックス 
                    pi = (cls == pred[:, 5]).nonzero(as_tuple=False).view(-1) # ターゲット・インデックス 
                    # 検出の検索 
                    if pi.shape[0]:
                    # ターゲットを予測 
                    ious, i = box_iou(predn[pi, :4], tbox[ti]).max(1) # 最良の ious、インデックス 
                    # 検出を追加 
                    detected_set = set() 
                    for j in (ious > iouv[0]).nonzero(as_tuple=False): 
                        d = ti[i[j]] # 検出されたターゲット 
                        if d.item() not in detected_set: 
                            detected_set.add(d.item()) 
                            detected.append(d) 
                            correct[pi[j]] = ious[j] > iouv # iou_thres は 1xn 
                            if len(detected) == nl: # すべてのターゲットはすでに画像内に配置 
                                break 
            # 統計を追加 (correct, conf, pcls, tcls) 
            stats.append((correct.cpu(), pred[:, 4].cpu(), pred[:, 5].cpu(), tcls)) 
    # 統計を計算 
    stats = [np.concatenate(x, 0) for x in zip(*stats)] # numpy へ 
    if len(stats) and stats[0].any(): 
        p, r, ap, f1, ap_class = ap_per_class(*stats, plot=True, v5_metric=v5_metric, names=names) 
        ap50, ap = ap[:, 0], ap.mean(1) # AP@0.5, AP@0.5:0.95 
        mp, mr, map50, map = p.mean(), r.mean(), ap50.mean(), ap.mean() 
        nt = np.bincount(stats[3].astype(np.int64), minlength=nc) # クラスごとのターゲット数 
    else: 
        nt = torch.zeros(1) 
    maps = np.zeros(nc) + map 
    for i, c in enumerate(ap_class): 
        maps[c] = ap[i] 
    return mp, mr, map50, map, maps, seen, nt.sum()

検証機能は、次の精度メトリックのリストを報告します:

  • Precision は、関連するオブジェクトのみを識別するモデルの正確さの度合いです。

  • Recall は、モデルがすべてのグラウンド・トゥルース・オブジェクトを検出する能力を測定します。

  • mAP@t - 平均精度は、データセット内のすべてのクラスにわたって集計された適合率と再現率曲線下の領域として表されます。ここで、t は交差ユニオン (IOU) しきい値、つまり、グラウンドの真実と予測されたオブジェクト間の重複の度合いです。したがって、mAP@.5 は、平均精度が 0.5 IOU しきい値で計算されたことを示します。mAP@.5:.95 は、ステップ 0.05 で 0.5 から 0.95 までの範囲の IOU しきい値で計算されます。

mp, mr, map50, map, maps, num_images, labels = test(data=data, model=compiled_model, dataloader=dataloader, names=NAMES) 
# 結果をプリント 
s = ("%20s" + "%12s" * 6) % ( 
    "Class", 
    "Images", 
    "Labels", 
    "Precision", 
    "Recall", 
    "mAP@.5", 
    "mAP@.5:.95", 
) 
print(s) 
pf = "%20s" + "%12i" * 2 + "%12.3g" * 4 # プリント形式 
print(pf % ("all", num_images, labels, mp, mr, map50, map))
0%|          | 0/5000 [00:00<?, ?it/s]
Class Images Labels Precision Recall mAP@.5 mAP@.5:.95 
all     5000  36335     0.651  0.507  0.544      0.359

NNCF トレーニング後の量子化 API を使用してモデルを最適化#

NNCF は、精度の低下を最小限に抑えながら、OpenVINO でニューラル・ネットワーク推論を最適化する一連の高度なアルゴリズムを提供します。YOLOv7 を最適化するため、ポストトレーニング・モード (微調整パイプラインなし) で 8 ビット量子化を使用します。

: NNCF トレーニング後の量子化は、OpenVINO 2022.3 リリースのプレビュー機能として利用できます。次のリリースでは完全な機能サポートが提供される予定です。

最適化プロセスには次の手順が含まれます:

  1. 量子化用のデータセットを作成します。

  2. nncf.quantize を実行して、最適化されたモデルを取得します。

  3. openvino.runtime.serialize 関数を使用して、OpenVINO IR モデルをシリアル化します。

量子化の精度テストで検証データローダーを再利用します。そのため、nncf.Dataset オブジェクトにラップし、入力テンソルのみを取得する変換関数を定義する必要があります。

import nncf # noqa: F811 

def transform_fn(data_item): 
    """ 
    Quantization transform function.Extracts and preprocess input data from dataloader item for quantization.
    Parameters: 
        data_item: Tuple with data item produced by DataLoader during iteration 
    Returns: 
        input_tensor: Input data for quantization 
    """ 
    img = data_item[0].numpy() 
    input_tensor = prepare_input_tensor(img) 
    return input_tensor 

quantization_dataset = nncf.Dataset(dataloader, transform_fn)
INFO:nncf:NNCF initialized successfully.Supported frameworks detected: torch, tensorflow, onnx, openvino

nncf.quantize 関数は、モデルの量子化のインターフェイスを提供します。OpenVINO モデルのインスタンスと量子化データセットが必要です。オプションで、量子化プロセスの追加パラメーター (量子化のサンプル数、プリセット、無視される範囲など) を提供できます。YOLOv7 モデルには、活性化の非対称量子化を必要とする非 ReLU 活性化関数が含まれています。さらに良い結果を得るため、mixed 量子化プリセットを使用します。これは、重みの対称量子化と活性化の非対称量子化を提供します。

quantized_model = nncf.quantize(model, quantization_dataset, preset=nncf.QuantizationPreset.MIXED) 

ov.save_model(quantized_model, "model/yolov7-tiny_int8.xml")
2024-07-13 04:17:49.896323: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable TF_ENABLE_ONEDNN_OPTS=0.
2024-07-13 04:17:49.928585: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations. 
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-07-13 04:17:50.540879: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT
Output()
Output()
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16. Memory sharing is disabled by default. Set shared_memory=False to hide this warning. 
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16. Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.
WARNING:openvino.runtime.opset13.ops:Converting value of float32 to float16.Memory sharing is disabled by default.Set shared_memory=False to hide this warning.

量子化モデルの推論を検証#

device
Dropdown(description='Device:', index=1, options=('CPU', 'AUTO'), value='AUTO')
int8_compiled_model = core.compile_model(quantized_model, device.value) 
boxes, image, input_shape = detect(int8_compiled_model, "inference/images/horses.jpg") 
image_with_boxes = draw_boxes(boxes[0], input_shape, image, NAMES, COLORS) 
Image.fromarray(image_with_boxes)
../_images/yolov7-optimization-with-output_44_0.png

量子化されたモデルの精度を検証#

int8_result = test(data=data, model=int8_compiled_model, dataloader=dataloader, names=NAMES)
0%|          | 0/5000 [00:00<?, ?it/s]
mp, mr, map50, map, maps, num_images, labels = int8_result 
# 結果をプリント 
s = ("%20s" + "%12s" * 6) % ( 
    "Class", 
    "Images", 
    "Labels", 
    "Precision", 
    "Recall", 
    "mAP@.5", 
    "mAP@.5:.95", 
) 
print(s) 
pf = "%20s" + "%12i" * 2 + "%12.3g" * 4 # プリント形式 
print(pf % ("all", num_images, labels, mp, mr, map50, map))
Class Images Labels Precision Recall mAP@.5 mAP@.5:.95 
all     5000  36335     0.643  0.506   0.54      0.353

ご覧のとおり、量子化後にモデルの精度がわずかに変化しました。ただし、出力画像を見ると、これらの変更は重要ではありません。

元のモデルと量子化モデルのパフォーマンスを比較#

最後に、OpenVINO Benchmark ツールを使用して、FP32INT8 モデルの推論パフォーマンスを測定します。

: より正確なパフォーマンスを得るには、他のアプリケーションを閉じて、ターミナル/コマンドプロンプトで benchmark_app を実行することを推奨します。benchmark_app -m model.xml -d CPU を実行して、CPU で非同期推論のベンチマークを 1 分間実行します。GPU でベンチマークを行うには、CPUGPU に変更します。benchmark_app --help を実行すると、すべてのコマンドライン・オプションの概要が表示されます。

device
Dropdown(description='Device:', index=1, options=('CPU', 'AUTO'), value='AUTO')
# 推論 FP32 モデル (OpenVINO IR) 
!benchmark_app -m model/yolov7-tiny.xml -d $device.value -api async
[Step 1/11] Parsing and validating input arguments 
[ INFO ] Parsing input parameters 
[Step 2/11] Loading OpenVINO Runtime 
[ WARNING ] Default duration 120 seconds is used for unknown device AUTO 
[ INFO ] OpenVINO: 
[ INFO ] Build .................................2024.4.0-16028-fe423b97163 
[ INFO ] 
[ INFO ] Device info: 
[ INFO ] AUTO 
[ INFO ] Build .................................2024.4.0-16028-fe423b97163 
[ INFO ] 
[ INFO ] 
[Step 3/11] Setting device configuration 
[ WARNING ] Performance hint was not explicitly specified in command line.Device(AUTO) performance hint will be set to PerformanceMode.THROUGHPUT.
[Step 4/11] Reading model files 
[ INFO ] Loading model files 
[ INFO ] Read model took 13.26 ms 
[ INFO ] Original model I/O parameters: 
[ INFO ] Model inputs: 
[ INFO ]     images (node: images) : f32 / [...]/ [1.3,640,640] 
[ INFO ] Model outputs: 
[ INFO ] output (node: output) : f32 / [...] / [1,25200,85] 
[Step 5/11] Resizing model to match image sizes and given batch 
[ INFO ] Model batch size: 1 
[Step 6/11] Configuring input of the model 
[ INFO ] Model inputs: 
[ INFO ] images (node: images) : u8 / [N,C,H,W] / [1,3,640,640] 
[ INFO ] Model outputs: 
[ INFO ] output (node: output) : f32 / [...] / [1,25200,85] 
[Step 7/11] Loading the model to the device 
[ INFO ] Compile model took 254.06 ms 
[Step 8/11] Querying optimal runtime parameters 
[ INFO ] Model: 
[ INFO ] NETWORK_NAME: main_graph 
[ INFO ] EXECUTION_DEVICES: ['CPU'] 
[ INFO ]     PERFORMANCE_HINT: PerformanceMode.THROUGHPUT 
[ INFO ]     OPTIMAL_NUMBER_OF_INFER_REQUESTS: 6 
[ INFO ]     MULTI_DEVICE_PRIORITIES: CPU 
[ INFO ]     CPU: 
[ INFO ]       AFFINITY: Affinity.CORE 
[ INFO ]       CPU_DENORMALS_OPTIMIZATION: False 
[ INFO ]       CPU_SPARSE_WEIGHTS_DECOMPRESSION_RATE: 1.0 
[ INFO ]       DYNAMIC_QUANTIZATION_GROUP_SIZE: 32 
[ INFO ]       ENABLE_CPU_PINNING: True 
[ INFO ]       ENABLE_HYPER_THREADING: True 
[ INFO ]       EXECUTION_DEVICES: ['CPU'] 
[ INFO ]       EXECUTION_MODE_HINT: ExecutionMode.PERFORMANCE 
[ INFO ]       INFERENCE_NUM_THREADS: 24 
[ INFO ]       INFERENCE_PRECISION_HINT: <Type: 'float32'> 
[ INFO ]       KV_CACHE_PRECISION: <Type: 'float16'> 
[ INFO ]       LOG_LEVEL: Level.NO 
[ INFO ]       MODEL_DISTRIBUTION_POLICY: set() 
[ INFO ]       NETWORK_NAME: main_graph 
[ INFO ]       NUM_STREAMS: 6 
[ INFO ]       OPTIMAL_NUMBER_OF_INFER_REQUESTS: 6 
[ INFO ]       PERFORMANCE_HINT: THROUGHPUT 
[ INFO ]       PERFORMANCE_HINT_NUM_REQUESTS: 0 
[ INFO ]       PERF_COUNT: NO 
[ INFO ]       SCHEDULING_CORE_TYPE: SchedulingCoreType.ANY_CORE 
[ INFO ] MODEL_PRIORITY: Priority.MEDIUM 
[ INFO ] LOADED_FROM_CACHE: False 
[ INFO ] PERF_COUNT: False 
[Step 9/11] Creating infer requests and preparing input tensors 
[ WARNING ] No input files were given for input 'images'!.This input will be filled with random values! 
[ INFO ] Fill input 'images' with random values 
[Step 10/11] Measuring performance (Start inference asynchronously, 6 inference requests, limits: 120000 ms duration) 
[ INFO ] Benchmarking in inference only mode (inputs filling are not included in measurement loop).
[ INFO ] First inference took 46.77 ms 
[Step 11/11] Dumping statistics report 
[ INFO ] Execution Devices:['CPU'] 
[ INFO ] Count: 11694 iterations 
[ INFO ] Duration: 120060.72 ms 
[ INFO ] Latency: 
[ INFO ]     Median: 61.36 ms 
[ INFO ]     Average: 61.45 ms 
[ INFO ]     Min: 34.72 ms 
[ INFO ]     Max: 81.34 ms 
[ INFO ] Throughput: 97.40 FPS
# 推論 INT8 モデル (OpenVINO IR) 
!benchmark_app -m model/yolov7-tiny_int8.xml -d $device.value -api async
[Step 1/11] Parsing and validating input arguments 
[ INFO ] Parsing input parameters 
[Step 2/11] Loading OpenVINO Runtime 
[ WARNING ] Default duration 120 seconds is used for unknown device AUTO 
[ INFO ] OpenVINO: 
[ INFO ] Build .................................2024.4.0-16028-fe423b97163 
[ INFO ] 
[ INFO ] Device info: 
[ INFO ] AUTO 
[ INFO ] Build .................................2024.4.0-16028-fe423b97163 
[ INFO ] 
[ INFO ] 
[Step 3/11] Setting device configuration 
[ WARNING ] Performance hint was not explicitly specified in command line.Device(AUTO) performance hint will be set to PerformanceMode.THROUGHPUT.
[Step 4/11] Reading model files 
[ INFO ] Loading model files 
[ INFO ] Read model took 19.00 ms 
[ INFO ] Original model I/O parameters: 
[ INFO ] Model inputs: 
[ INFO ]     images (node: images) : f32 / [...]/ [1.3,640,640] 
[ INFO ] Model outputs: 
[ INFO ] output (node: output) : f32 / [...]/ [1,25200,85] 
[Step 5/11] Resizing model to match image sizes and given batch 
[ INFO ] Model batch size: 1 
[Step 6/11] Configuring input of the model 
[ INFO ] Model inputs: 
[ INFO ] images (node: images) : u8 / [N,C,H,W] / [1,3,640,640] 
[ INFO ] Model outputs: 
[ INFO ] output (node: output) : f32 / [...]/ [1,25200,85] 
[Step 7/11] Loading the model to the device 
[ INFO ] Compile model took 402.55 ms 
[Step 8/11] Querying optimal runtime parameters 
[ INFO ] Model: 
[ INFO ] NETWORK_NAME: main_graph 
[ INFO ] EXECUTION_DEVICES: ['CPU'] 
[ INFO ]     PERFORMANCE_HINT: PerformanceMode.THROUGHPUT 
[ INFO ]     OPTIMAL_NUMBER_OF_INFER_REQUESTS: 6 
[ INFO ]     MULTI_DEVICE_PRIORITIES: CPU 
[ INFO ]     CPU: 
[ INFO ]       AFFINITY: Affinity.CORE 
[ INFO ]       CPU_DENORMALS_OPTIMIZATION: False 
[ INFO ]       CPU_SPARSE_WEIGHTS_DECOMPRESSION_RATE: 1.0 
[ INFO ]       DYNAMIC_QUANTIZATION_GROUP_SIZE: 32 
[ INFO ]       ENABLE_CPU_PINNING: True 
[ INFO ]       ENABLE_HYPER_THREADING: True 
[ INFO ]       EXECUTION_DEVICES: ['CPU'] 
[ INFO ]       EXECUTION_MODE_HINT: ExecutionMode.PERFORMANCE 
[ INFO ]       INFERENCE_NUM_THREADS: 24 
[ INFO ]       INFERENCE_PRECISION_HINT: <Type: 'float32'> 
[ INFO ]       KV_CACHE_PRECISION: <Type: 'float16'> 
[ INFO ]       LOG_LEVEL: Level.NO 
[ INFO ]       MODEL_DISTRIBUTION_POLICY: set() 
[ INFO ]       NETWORK_NAME: main_graph 
[ INFO ]       NUM_STREAMS: 6 
[ INFO ]       OPTIMAL_NUMBER_OF_INFER_REQUESTS: 6 
[ INFO ]       PERFORMANCE_HINT: THROUGHPUT 
[ INFO ]       PERFORMANCE_HINT_NUM_REQUESTS: 0 
[ INFO ]       PERF_COUNT: NO 
[ INFO ]       SCHEDULING_CORE_TYPE: SchedulingCoreType.ANY_CORE 
[ INFO ] MODEL_PRIORITY: Priority.MEDIUM 
[ INFO ] LOADED_FROM_CACHE: False 
[ INFO ] PERF_COUNT: False 
[Step 9/11] Creating infer requests and preparing input tensors 
[ WARNING ] No input files were given for input 'images'!.This input will be filled with random values! 
[ INFO ] Fill input 'images' with random values 
[Step 10/11] Measuring performance (Start inference asynchronously, 6 inference requests, limits: 120000 ms duration) 
[ INFO ] Benchmarking in inference only mode (inputs filling are not included in measurement loop).
[ INFO ] First inference took 23.71 ms 
[Step 11/11] Dumping statistics report 
[ INFO ] Execution Devices:['CPU'] 
[ INFO ] Count: 34356 iterations 
[ INFO ] Duration: 120021.29 ms 
[ INFO ] Latency: 
[ INFO ]     Median: 20.77 ms 
[ INFO ]     Average: 20.84 ms 
[ INFO ]     Min: 14.81 ms 
[ INFO ]     Max: 41.35 ms 
[ INFO ] Throughput: 286.25 FPS