音響分類 Python* デモ¶
音声分類アルゴリズムのデモ・アプリケーション。
どのように動作するか¶
起動時に、デモ・アプリケーションはコマンドライン・パラメーターを受け取り、モデルを OpenVINO™ ランタイムプラグインにロードします。wav
形式の音声ファイルのみを使用します。オーディオのサンプリング・レートがモデルのサンプリング・レートと異なる場合、オーディオを -sr/--sample_rate
オプションでモデルのサンプリング・レートに変換する必要があります (例: AclNet は 16kHz オーディオを想定しています)。オーディオを読み取った後、モデル入力に合わせてクリップにスライスされ (クリップは -ol/--overlap
オプションでオーバーラップできます)、各クリップは独自の予測で個別に処理されます。
実行の準備¶
デモの入力画像またはビデオファイルについては、Open Model Zoo デモの概要のデモに使用できるメディアファイルのセクションを参照してください。デモでサポートされるモデルリストは、<omz_dir>/demos/sound_classification_demo/python/models.lst
ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --list models.lst
モデル・コンバーターの使用例:
omz_converter --list models.lst
サポートされるモデル¶
aclnet
aclnet-int8
注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートとパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。
実行¶
-h
オプションを指定してアプリケーションを実行すると、使用方法が表示されます。
usage: sound_classification_demo.py [-h] -i INPUT -m MODEL [-d DEVICE]
[--labels LABELS] [-sr SAMPLE_RATE]
[-ol OVERLAP]
Options:
-h, --help Show this help message and exit.
-i INPUT, --input INPUT
Required. Input to process
-m MODEL, --model MODEL
Required. Path to an .xml file with a trained model.
-d DEVICE, --device DEVICE
Optional. Specify the target device to infer on; CPU or
GPU is acceptable. The demo
will look for a suitable plugin for device specified.
Default value is CPU
--labels LABELS Optional. Labels mapping file
-sr SAMPLE_RATE, --sample_rate SAMPLE_RATE
Optional. Set sample rate for audio input
-ol OVERLAP, --overlap OVERLAP
Optional. Set the overlapping between audio clip in
samples or percent
オプションの空のリストを指定してアプリケーションを実行すると、上記の使用法メッセージとエラー・メッセージが表示されます。
次のコマンドを使用すると、事前トレーニングされたサウンド分類モデルと入力オーディオのサンプルレート 16000 への変換を使用して GPU で推論を実行できます。
python3 sound_classification_demo.py -i <path_to_wav>/input_audio.wav -m <path_to_model>/aclnet.xml -d GPU --sample_rate 16000
オーディオファイルの例は、https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav からダウンロードできます。
デモの出力¶
デモはコンソールを使用して予測を表示します。各クリップの分類とオーディオ全体の総合的な予測を示します。デモレポート
レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。