音声認識 QuartzNet Python* デモ#

このデモでは、事前トレーニングされた QuartzNet モデルを使用した自動音声認識 (ASR) をデモンストレーションします。

どのように動作するか#

オーディオ特徴を計算し、ニューラル・ネットワークを実行して文字の確率を取得し、CTC グリーディー・デコードを行った後、デコードされたテキストが出力されます。

実行の準備#

デモでサポートされるモデルリストは、<omz_dir>/demos/speech_recognition_quartznet_demo/python/models.lst ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --list models.lst

モデル・コンバーターの使用例:

omz_converter --list models.lst

サポートされるモデル#

quartznet-15x5-en

注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートとパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。

デモの実行#

-h オプションを指定してアプリケーションを実行すると、使用方法が表示されます。

usage: speech_recognition_quartznet_demo.py [-h] -m MODEL -i INPUT [-d DEVICE] 

optional arguments: 
  -h, --help          Show this help message and exit.
  -m MODEL, --model MODEL 
                      Required. Path to an .xml file with a trained model.  
  -i INPUT, --input INPUT 
                      Required.Path to an audio file in WAV PCM 16 kHz mono format 
  -d DEVICE, --device DEVICE 
                      Optional.Specify the target device to infer on, for 
                      example: CPU or GPU or HETERO.
                      The demo will look for a suitable OpenVINO Runtime 
                      plugin for this device.Default value is CPU.

一般的なコマンドラインは次のようになります:

python3 speech_recognition_quartznet_demo.py -m quartznet-15x5-en.xml -i audio.wav

注: 16 ビット、16 kHz、モノチャネル WAVE オーディオファイルのみがサポートされます。

オーディオファイルの例は、"https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav" からダウンロードできます。

デモの出力#

アプリケーションは、オーディオファイルをデコードしてテキストを出力します。デモレポート

レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。