wav2vec2-base¶
ユースケースと概要説明¶
Wav2Vec2.0-base は、wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations の論文で説明されているように、ラベルなしデータの音声表現を学習するように事前トレーニングされ、960 時間の音声を含む LibriSpeech データセットの損失における Connectionist Temporal Classification (CTC) を使用した音声認識タスク用に調整されたモデルです。このモデルは、生の音声を入力として受け取り、潜在的な音声表現を出力するマルチレイヤー畳み込み特徴エンコーダーで構成され、その後、トランスフォーマーに供給され、シーケンス全体から情報を取得する表現を構築します。基本モデルのトランスフォーマーは 12 のトランスレイヤーで構成され、特徴次元は 768 です。詳細については、リポジトリーとモデルカードも確認してください。
仕様¶
メトリック |
値 |
---|---|
タイプ |
音声認識 |
GFLOPs |
26.843 |
MParams |
94.3965 |
ソース・フレームワーク |
PyTorch* |
精度¶
メトリック |
値 |
---|---|
WER @ Librispeech test-clean |
3.39% |
入力¶
元のモデル¶
正規化されたオーディオ信号、名前 - inputs
、形状 - B, N
、形式 - B, N
。
説明:
B
- バッチサイズN
- シーケンス長
モデルは動的であり、さまざまな形状の入力を処理できます。
注: モデルは、入力データとして 16 ビット、16 kHz、モノチャネル WAVE オーディオを想定しています。
変換されたモデル¶
変換されたモデルには、元のモデルと同じパラメーターが含まれます。
出力¶
元のモデル¶
アルファベットの各シンボルのトークンごとの確率 (LogSoftmax 後)、名前 - logits
、形状 - B, N, 32
、出力データ形式 - B, N, C
。
説明:
B
- バッチサイズN
- 認識されたトークンの数C
- アルファベット/サイズ
B
モデルは動的であるため、
N
次元は異なる値を取ることができます。アルファベットのサイズ
C
は静的で、32 に等しくなります。
[pad]
- CTC ブランクラベルとして使用されるパディングトークン[s]
- 文字列の先頭[/s]
- 文字列の最後[unk]
- 不明なシンボル|
- 単語間の区切り文字として使用される空白記号
変換されたモデル¶
変換されたモデルには、元のモデルと同じパラメーターが含まれます。
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、こちらのライセンスに基づいて配布されています。
MIT License
Copyright (c) Facebook, Inc. and its affiliates.
Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:
The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.