音響分類 Python* デモ#

音声分類アルゴリズムのデモ・アプリケーション。

どのように動作するか#

起動時に、デモ・アプリケーションはコマンドライン・パラメーターを受け取り、モデルを OpenVINO™ ランタイムプラグインにロードします。wav 形式の音声ファイルのみを使用します。オーディオのサンプリング・レートがモデルのサンプリング・レートと異なる場合、オーディオを -sr/--sample_rate オプションでモデルのサンプリング・レートに変換する必要があります (例: AclNet は 16kHz オーディオを想定しています)。オーディオを読み取った後、モデル入力に合わせてクリップにスライスされ (クリップは -ol/--overlap オプションでオーバーラップできます)、各クリップは独自の予測で個別に処理されます。

実行の準備#

デモの入力画像またはビデオファイルについては、Open Model Zoo デモの概要のデモに使用できるメディアファイルのセクションを参照してください。デモでサポートされるモデルリストは、<omz_dir>/demos/sound_classification_demo/python/models.lst ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --list models.lst

モデル・コンバーターの使用例:

omz_converter --list models.lst

サポートされるモデル#

aclnet
aclnet-int8

注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートとパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。

実行する#

-h オプションを指定してアプリケーションを実行すると、使用方法が表示されます。

usage: sound_classification_demo.py [-h] -i INPUT -m MODEL [-d DEVICE] 
                                    [--labels LABELS] [-sr SAMPLE_RATE] 
                                    [-ol OVERLAP] 

Options: 
  -h, --help            Show this help message and exit.  
  -i INPUT, --input INPUT 
                        Required.Input to process 
  -m MODEL, --model MODEL 
                        Required.Path to an .xml file with a trained model.  
  -d DEVICE, --device DEVICE 
                        Optional.Specify the target device to infer on; CPU or 
                        GPU is acceptable. The demo will look for a suitable plugin 
                        for device specified. Default value is CPU 
  --labels LABELS 
                        Optional.Labels mapping file 
  -sr SAMPLE_RATE, --sample_rate SAMPLE_RATE 
                        Optional.Set sample rate for audio input 
  -ol OVERLAP, --overlap OVERLAP 
                        Optional.Set the overlapping between audio clip in 
                        samples or percent

オプションの空のリストを指定してアプリケーションを実行すると、上記の使用法メッセージとエラーメッセージが表示されます。

次のコマンドを使用すると、事前トレーニングされたサウンド分類モデルと入力オーディオのサンプルレート 16000 への変換を使用して GPU で推論を実行できます:

python3 sound_classification_demo.py -i <path_to_wav>/input_audio.wav -m <path_to_model>/aclnet.xml -d GPU --sample_rate 16000

オーディオファイルの例は、こちらからダウンロードできます。

デモの出力#

デモはコンソールを使用して予測を表示します。各クリップの分類とオーディオ全体の総合的な予測を示します。デモレポート

レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。