quartznet-15x5-en¶
ユースケースと概要説明¶
QuartzNet モデルは自動音声認識を実行します。QuartzNet の設計は、Jasper アーキテクチャーに基づいています。これは、Connectionist Temporal Classification (CTC) 損失を使用してトレーニングされた畳み込みモデルです。この特定のモデルには 15 個の Jasper ブロックがあり、それぞれが 5 回繰り返されます。モデルは NeMo で複数のデータセット上でトレーニングされました: LibriSpeech、Mozilla Common Voice、WSJ、Fisher、Switchboard、および NSC シンガポール英語。詳細は、リポジトリーとこちらをご覧ください。
仕様¶
メトリック |
値 |
---|---|
タイプ |
音声認識 |
GFLOPs |
2.4195 |
MParams |
18.8857 |
ソース・フレームワーク |
PyTorch* |
精度¶
メトリック |
値 |
---|---|
WER @ Librispeech test-clean |
3.86% |
入力¶
元のモデル¶
16kHz オーディオ信号の正規化されたメルスペクトログラム、名前 - audio_signal
、形状 - 1, 64, 128
、形式 - B, N, C
。
説明:
B
- バッチサイズN
- メルスペクトログラム周波数ビンの数C
- 間隔
変換されたモデル¶
変換されたモデルには、元のモデルと同じパラメーターが含まれます。
出力¶
元のモデル¶
アルファベットの各シンボルのフレームごとの確率 (LogSoftmax 後)、名前 - output
、形状 - 1, 64, 29
、出力データ形式 - B, N, C
。
説明:
B - バッチサイズ
N - オーディオフレームの数
C - アルファベットのサイズ (CTC ブランク記号を含む)
フレームごとの確率は、CTC デコーダーでデコードされます。アルファベットは: 0 = スペース、1…26 = “a” から “z”、27 = アポストロフィ、28 = CTC 空白記号です。例は <omz_dir>/demos/speech_recognition_deepspeech_demo/python/default_alphabet_example.conf
にあります。
変換されたモデル¶
変換されたモデルには、元のモデルと同じパラメーターが含まれます。
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、Apache License バージョン 2.0 に基づいて配布されています。ライセンスの内容は、<omz_dir>/models/public/licenses/APACHE-2.0.txt
で確認できます。