aclnet-int8

ユースケースと概要説明

AclNet-int8 モデルは、音響分類を実行するように設計された AclNet モデルの NNCF バリアントを使用して量子化され、調整されています。AclNet-int8 モデルは、<omz_dir>/data/dataset_classes/aclnet_53cl.txt ファイルにリストされている 53 の異なるクラスの環境音響の内部データセットでトレーニングされます。モデルの詳細については、論文を参照してください。

モデル入力は、N, C, 1, L 形式の PCM オーディオサンプルのセグメントです。

AclNet-int8 のモデル出力は、内部音響データベースから 53 の異なる環境音響クラスの音響分類器出力です。

仕様

メトリック

タイプ

分類

GFLOPs

2.71

MParams

1.41

ソース・フレームワーク

PyTorch*

精度

メトリック

上位 1

87.1%

上位 5

93.0%

メトリックは、次の出版物および論文に従って内部検証データセットに基づいて計算されました。

入力

元のモデル

オーディオ、名前 - result.1、形状 - 1, 1, 1, L、形式 - N, C, 1, L

説明:

  • N - バッチサイズ

  • C - チャネル

  • L - PCM サンプル数 (最小値は 16000)

変換されたモデル

オーディオ、名前 - result.1、形状 - 1, 1, 1, L、形式 - N, C, 1, L

説明:

  • N - バッチサイズ

  • C - チャネル

  • L - PCM サンプル数 (最小値は 16000)

出力

元のモデル

音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt)、名前 - 出力 - 486、形状 - 1, 53、出力データ形式 - N, C

説明:

  • N - バッチサイズ

  • C - [0, 1] 範囲の各クラスの予測ソフトマックスのスコア

変換されたモデル

音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt)、名前 - 出力 - 486、形状 - 1, 53、出力データ形式 - N, C

説明:

  • N - バッチサイズ

  • C - [0, 1] 範囲の各クラスの予測ソフトマックスのスコア

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。