音響分類 Python* デモ

音声分類アルゴリズムのデモ・アプリケーション。

どのように動作するか

起動時に、デモ・アプリケーションはコマンドライン・パラメーターを受け取り、モデルを OpenVINO™ ランタイムプラグインにロードします。wav 形式の音声ファイルのみを使用します。オーディオのサンプリング・レートがモデルのサンプリング・レートと異なる場合、オーディオを -sr/--sample_rate オプションでモデルのサンプリング・レートに変換する必要があります (例: AclNet は 16kHz オーディオを想定しています)。オーディオを読み取った後、モデル入力に合わせてクリップにスライスされ (クリップは -ol/--overlap オプションでオーバーラップできます)、各クリップは独自の予測で個別に処理されます。

実行の準備

デモの入力画像またはビデオファイルについては、Open Model Zoo デモの概要デモに使用できるメディアファイルのセクションを参照してください。デモでサポートされるモデルリストは、<omz_dir>/demos/sound_classification_demo/python/models.lst ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --list models.lst

モデル・コンバーターの使用例:

omz_converter --list models.lst

サポートされるモデル

  • aclnet

  • aclnet-int8

注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。

実行

-h オプションを指定してアプリケーションを実行すると、使用方法が表示されます。

usage: sound_classification_demo.py [-h] -i INPUT -m MODEL [-d DEVICE]
                                    [--labels LABELS] [-sr SAMPLE_RATE]
                                    [-ol OVERLAP]

Options:
                                    -h, --help            Show this help message and exit.
                                    -i INPUT, --input INPUT
                                    Required. Input to process
                                    -m MODEL, --model MODEL
                                    Required. Path to an .xml file with a trained model.
                                    -d DEVICE, --device DEVICE
                                    Optional. Specify the target device to infer on; CPU or
                                    GPU is acceptable. The demo
                                    will look for a suitable plugin for device specified.
                                    Default value is CPU
                                    --labels LABELS       Optional. Labels mapping file
                                    -sr SAMPLE_RATE, --sample_rate SAMPLE_RATE
                                    Optional. Set sample rate for audio input
                                    -ol OVERLAP, --overlap OVERLAP
                                    Optional. Set the overlapping between audio clip in
                                    samples or percent

オプションの空のリストを指定してアプリケーションを実行すると、上記の使用法メッセージとエラー・メッセージが表示されます。

次のコマンドを使用すると、事前トレーニングされたサウンド分類モデルと入力オーディオのサンプルレート 16000 への変換を使用して GPU で推論を実行できます。

python3 sound_classification_demo.py -i <path_to_wav>/input_audio.wav -m <path_to_model>/aclnet.xml -d GPU --sample_rate 16000

オーディオファイルの例は、https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav からダウンロードできます。

デモの出力

デモはコンソールを使用して予測を表示します。各クリップの分類とオーディオ全体の総合的な予測を示します。デモレポート

  • レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。