音声認識 Wav2Vec Python* デモ

このデモでは、事前トレーニングされた Wav2Vec モデルを使用した自動音声認識 (ASR) をデモンストレーションします。

どのように動作するか

オーディオ信号を読み取って正規化し、ニューラル・ネットワークを実行して文字の確率を取得し、CTC グリーディデコードを行った後、デコードされたテキストが出力されます。

実行の準備

デモでサポートされるモデルリストは、<omz_dir>/demos/speech_recognition_wav2vec_demo/python/models.lst ファイルにあります。このファイルは、モデル・ダウンローダーおよびコンバーターのパラメーターとして使用され、モデルをダウンロードし、必要に応じて OpenVINO IR 形式 (*.xml + *.bin) に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --list models.lst

モデル・コンバーターの使用例:

omz_converter --list models.lst

サポートされるモデル

  • wav2vec2-base

注: 各種デバイス向けのモデル推論サポートの詳細については、インテルの事前トレーニング・モデルのデバイスサポートパブリックの事前トレーニング・モデルのデバイスサポートの表を参照してください。

デモの実行

-h オプションを指定してアプリケーションを実行すると、使用方法が表示されます。

usage: speech_recognition_wav2vec_demo.py [-h] -m MODEL -i INPUT [-d DEVICE] [--vocab VOCAB] [--dynamic_shape]

optional arguments:
                                    -h, --help            Show this help message and exit.
                                    -m MODEL, --model MODEL
                                    Required. Path to an .xml file with a trained model.
                                    -i INPUT, --input INPUT
                                    Required. Path to an audio file in WAV PCM 16 kHz mono format.
                                    -d DEVICE, --device DEVICE
                                    Optional. Specify the target device to infer on, for example: CPU, GPU or
                                    HETERO. The demo will look for a suitable OpenVINO Runtime plugin for this device. Default value is CPU.
                                    --vocab VOCAB         Optional. Path to an .json file with encoding vocabulary.
                                    --dynamic_shape       Optional. Using dynamic shapes for inputs and outputs of model.

一般的なコマンドラインは次のようになります。

python3 speech_recognition_wav2vec_demo.py -m wav2vec2-base.xml -i audio.wav

注: 16 ビット、16 kHz、モノチャネル WAVE オーディオファイルのみがサポートされます。

オーディオファイルの例は、https://storage.openvinotoolkit.org/models_contrib/speech/2021.2/librispeech_s5/how_are_you_doing_today.wav からダウンロードできます。

デモの出力

アプリケーションは、オーディオファイルをデコードしてテキストを出力します。デモレポート

  • レイテンシー: 入力データの処理に必要な合計処理時間 (データの読み取りから結果の表示まで)。