音声認識 QuartzNet Python* デモ¶
このデモでは、事前トレーニングされた QuartzNet モデルを使用した自動音声認識 (ASR) をデモンストレーションします。
どのように動作するか¶
オーディオ特徴を計算し、ニューラル・ネットワークを実行して文字の確率を取得し、CTC グリーディデコードを行った後、デコードされたテキストが出力されます。
実行の準備¶
デモでサポートされるモデルリストは、<omz_dir>/demos/speech_recognition_quartznet_demo/python/models.lst
ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --list models.lst
モデル・コンバーターの使用例:
omz_converter --list models.lst
サポートされるモデル¶
quartznet-15x5-en
注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートとパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。
デモの実行¶
-h
オプションを指定してアプリケーションを実行すると、使用方法が表示されます。
usage: speech_recognition_quartznet_demo.py [-h] -m MODEL -i INPUT [-d DEVICE]
optional arguments:
-h, --help Show this help message and exit.
-m MODEL, --model MODEL
Required. Path to an .xml file with a trained model.
-i INPUT, --input INPUT
Required. Path to an audio file in WAV PCM 16 kHz mono format
-d DEVICE, --device DEVICE
Optional. Specify the target device to infer on, for
example: CPU or GPU or HETERO. The
demo will look for a suitable OpenVINO Runtime plugin for this
device. Default value is CPU.
一般的なコマンドラインは次のようになります。
python3 speech_recognition_quartznet_demo.py -m quartznet-15x5-en.xml -i audio.wav
注: 16 ビット、16 kHz、モノチャネル WAVE オーディオファイルのみがサポートされます。
オーディオファイルの例は、https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav からダウンロードできます。