aclnet#
ユースケースと概要説明#
AclNet
モデルは音響分類を実行するように設計されており、ファイル <omz_dir>/data/dataset_classes/aclnet_53cl.txt
にリストされている 53 の異なるクラスの環境音響の内部データセットでトレーニングされています。モデルの詳細については、論文 を参照してください。
モデル入力は、N, C, 1, L
形式の PCM オーディオサンプルのセグメントです。
AclNet
のモデル出力は、内部音響データベースから 53 の異なる環境音響クラスの音響分類器出力です。
仕様#
メトリック |
値 |
---|---|
タイプ |
分類 |
GFLOPs |
1.42 |
MParams |
2.71 |
ソース・フレームワーク |
PyTorch* |
精度#
メトリック |
値 |
---|---|
上位 1 |
86.3% |
上位 5 |
92.0% |
入力#
元のモデル#
オーディオ、名前 - input
、形状 - 1, 1, 1, L
、形式 - N, C, 1, L
、ここで:
N
- バッチサイズC
- チャネルL
- PCM サンプル数 (最小値は 16000)
変換されたモデル#
オーディオ、名前 - input
、形状 - 1, 1, 1, L
、形式 - N, C, 1, L
、ここで:
N
- バッチサイズC
- チャネルL
- PCM サンプル数 (最小値は 16000)
出力#
元のモデル#
音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt
)、名前 - 出力 - output
、形状 - 1, 53
、出力データ形式 - N, C
、ここで:
N
- バッチサイズC
- [0, 1] 範囲の各クラスの予測ソフトマックスのスコア
変換されたモデル#
音響分類子 (ラベルファイル、<omz_dir>/data/dataset_classes/aclnet_53cl.txt
)、名前 - 出力 - output
、形状 - 1, 53
、出力データ形式 - N, C
、ここで:
N
- バッチサイズC
- [0, 1] 範囲の各クラスの予測ソフトマックスのスコア
モデルをダウンロードして OpenVINO™ IR 形式に変換#
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
デモの使い方#
このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:
法務上の注意書き#
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。