音声認識 QuartzNet Python* デモ#
このデモでは、事前トレーニングされた QuartzNet モデルを使用した自動音声認識 (ASR) をデモンストレーションします。
どのように動作するか#
オーディオ特徴を計算し、ニューラル・ネットワークを実行して文字の確率を取得し、CTC グリーディー・デコードを行った後、デコードされたテキストが出力されます。
実行の準備#
デモでサポートされるモデルリストは、<omz_dir>/demos/speech_recognition_quartznet_demo/python/models.lst
ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --list models.lst
モデル・コンバーターの使用例:
omz_converter --list models.lst
サポートされるモデル#
quartznet-15x5-en
注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートとパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。
デモの実行#
-h
オプションを指定してアプリケーションを実行すると、使用方法が表示されます。
usage: speech_recognition_quartznet_demo.py [-h] -m MODEL -i INPUT [-d DEVICE]
optional arguments:
-h, --help Show this help message and exit.
-m MODEL, --model MODEL
Required. Path to an .xml file with a trained model.
-i INPUT, --input INPUT
Required.Path to an audio file in WAV PCM 16 kHz mono format
-d DEVICE, --device DEVICE
Optional.Specify the target device to infer on, for
example: CPU or GPU or HETERO.
The demo will look for a suitable OpenVINO Runtime
plugin for this device.Default value is CPU.
一般的なコマンドラインは次のようになります:
python3 speech_recognition_quartznet_demo.py -m quartznet-15x5-en.xml -i audio.wav
注: 16 ビット、16 kHz、モノチャネル WAVE オーディオファイルのみがサポートされます。
オーディオファイルの例は、"https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav" からダウンロードできます。
デモの出力#
アプリケーションは、オーディオファイルをデコードしてテキストを出力します。デモレポート
レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。