quartznet-15x5-en

ユースケースと概要説明

QuartzNet モデルは自動音声認識を実行します。QuartzNet の設計は、Jasper アーキテクチャーに基づいています。これは、Connectionist Temporal Classification (CTC) 損失を使用してトレーニングされた畳み込みモデルです。この特定のモデルには 15 個の Jasper ブロックがあり、それぞれが 5 回繰り返されます。モデルは NeMo で複数のデータセット上でトレーニングされました: LibriSpeech、Mozilla Common Voice、WSJ、Fisher、Switchboard、および NSC シンガポール英語。詳細は、リポジトリーこちらをご覧ください。

仕様

メトリック

タイプ

音声認識

GFLOPs

2.4195

MParams

18.8857

ソース・フレームワーク

PyTorch*

精度

メトリック

WER @ Librispeech test-clean

3.86%

入力

元のモデル

16kHz オーディオ信号の正規化されたメルスペクトログラム、名前 - audio_signal、形状 - 1, 64, 128、形式 - B, N, C

説明:

  • B - バッチサイズ

  • N - メルスペクトログラム周波数ビンの数

  • C - 間隔

変換されたモデル

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

出力

元のモデル

アルファベットの各シンボルのフレームごとの確率 (LogSoftmax 後)、名前 - output、形状 - 1, 64, 29、出力データ形式 - B, N, C

説明:

  • B - バッチサイズ

  • N - オーディオフレームの数

  • C - アルファベットのサイズ (CTC ブランク記号を含む)

フレームごとの確率は、CTC デコーダーでデコードされます。アルファベットは: 0 = スペース、1…26 = “a” から “z”、27 = アポストロフィ、28 = CTC 空白記号です。例は <omz_dir>/demos/speech_recognition_deepspeech_demo/python/default_alphabet_example.conf にあります。

変換されたモデル

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

モデルをダウンロードして OpenVINO™ IR 形式に変換

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。