quartznet-15x5-en#

ユースケースと概要説明#

QuartzNet モデルは自動音声認識を実行します。QuartzNet の設計は、Jasper アーキテクチャーに基づいています。これは、Connectionist Temporal Classification (CTC) 損失を使用してトレーニングされた畳み込みモデルです。この特定のモデルには 15 個の Jasper ブロックがあり、それぞれが 5 回繰り返されます。モデルは NeMo で複数のデータセット上でトレーニングされました: LibriSpeech、Mozilla Common Voice、WSJ、Fisher、Switchboard、および NSC シンガポール英語。詳細は、リポジトリーとこちらをご覧ください。

仕様#

メトリック	値
タイプ	音声認識
GFLOPs	2.4195
MParams	18.8857
ソース・フレームワーク	PyTorch*

精度#

メトリック	値
WER @ Librispeech test-clean	3.86%

入力#

元のモデル#

16kHz オーディオ信号の正規化されたメルスペクトログラム、名前 - audio_signal、形状 - 1, 64, 128、形式 - B, N, C、ここで:

B - バッチサイズ
N - メルスペクトログラム周波数ビンの数
C - 間隔

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

出力#

元のモデル#

アルファベットの各シンボルのフレームごとの確率 (LogSoftmax 後)、名前 - output、形状 - 1, 64, 29、出力データ形式 - B, N, C、ここで:

B - バッチサイズ
N - オーディオフレームの数
C - アルファベットのサイズ (CTC ブランク記号を含む)

フレームごとの確率は、CTC デコーダーでデコードされます。アルファベットは: 0 = スペース、1…26 = “a” から “z”、27 = アポストロフィ、28 = CTC 空白記号です。例は <omz_dir>/demos/speech_recognition_deepspeech_demo/python/default_alphabet_example.conf にあります。

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

音声認識 QuartzNet Python* デモ

法務上の注意書き#

元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt で確認できます。