音声認識 QuartzNet Python* デモ

このデモでは、事前トレーニングされた QuartzNet モデルを使用した自動音声認識 (ASR) をデモンストレーションします。

どのように動作するか

オーディオ特徴を計算し、ニューラル・ネットワークを実行して文字の確率を取得し、CTC グリーディデコードを行った後、デコードされたテキストが出力されます。

実行の準備

デモでサポートされるモデルリストは、<omz_dir>/demos/speech_recognition_quartznet_demo/python/models.lst ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --list models.lst

モデル・コンバーターの使用例:

omz_converter --list models.lst

サポートされるモデル

  • quartznet-15x5-en

注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。

デモの実行

-h オプションを指定してアプリケーションを実行すると、使用方法が表示されます。

usage: speech_recognition_quartznet_demo.py [-h] -m MODEL -i INPUT [-d DEVICE]

optional arguments:
                                    -h, --help            Show this help message and exit.
                                    -m MODEL, --model MODEL
                                    Required. Path to an .xml file with a trained model.
                                    -i INPUT, --input INPUT
                                    Required. Path to an audio file in WAV PCM 16 kHz mono format
                                    -d DEVICE, --device DEVICE
                                    Optional. Specify the target device to infer on, for
                                    example: CPU or GPU or HETERO. The
                                    demo will look for a suitable OpenVINO Runtime plugin for this
                                    device. Default value is CPU.

一般的なコマンドラインは次のようになります。

python3 speech_recognition_quartznet_demo.py -m quartznet-15x5-en.xml -i audio.wav

注: 16 ビット、16 kHz、モノチャネル WAVE オーディオファイルのみがサポートされます。

オーディオファイルの例は、https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav からダウンロードできます。

デモの出力

アプリケーションは、オーディオファイルをデコードしてテキストを出力します。デモレポート

  • レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。