wav2vec2-base#

ユースケースと概要説明#

Wav2Vec2.0-base は、wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations の論文で説明されているように、ラベルなしデータの音声表現を学習するように事前トレーニングされ、960 時間の音声を含む LibriSpeech データセットの損失におけるコネクショニスト時間分類 (CTC) を使用した音声認識タスク用に調整されたモデルです。このモデルは、生の音声を入力として受け取り、潜在的な音声表現を出力するマルチレイヤー畳み込み特徴エンコーダーで構成され、その後、トランスフォーマーに供給され、シーケンス全体から情報を取得する表現を構築します。基本モデルのトランスフォーマーは 12 のトランスレイヤーで構成され、フィーチャー次元は 768 です。詳細については、リポジトリーとモデルカードも確認してください。

仕様#

メトリック	値
タイプ	音声認識
GFLOPs	26.843
MParams	94.3965
ソース・フレームワーク	PyTorch*

精度#

メトリック	値
WER @ Librispeech test-clean	3.39%

入力#

元のモデル#

正規化されたオーディオ信号、名前 - inputs、形状 - B, N、形式 - B, N、ここで:

B - バッチサイズ
N - シーケンス長

モデルは動的であり、さまざまな形状の入力を処理できます。

注: モデルは、入力データとして 16 ビット、16 kHz、モノチャネル WAVE オーディオを想定しています。

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

出力#

元のモデル#

アルファベットの各シンボルのトークンごとの確率 (LogSoftmax 後)、名前 - logits、形状 - B, N, 32、出力データ形式 - B, N, C、ここで:

B - バッチサイズ
N - 認識されたトークンの数
C - アルファベット/サイズ

モデルは動的であるため、B と N 次元は異なる値を取ることができます。アルファベットのサイズ C は静的で、32 にに等しくなります。モデルのアルファベット: “[pad]”、“[s]”、“[/s]”、“[unk]”、“|”、“E”、“T”、“A”、“O”、“N”、“I”、“H”、“S”、“R”、“D”、“L”、“U”、“M”、“W”、“C”、“F”、“G”、“Y”、“P”、“B”、“V”、“K”、“’”、“X”、“J”、“Q”、“Z”、ここで:

[pad] - CTC ブランクラベルとして使用されるパディングトークン
[s] - 文字列の先頭
[/s] - 文字列の最後
[unk] - 不明なシンボル
| - 単語間の区切り文字として使用される空白記号。

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

音声認識 Wav2Vec Python* デモ

法務上の注意書き#

元のモデルは、こちらのライセンスに基づいて配布されています。

MIT License 

Copyright (c) Facebook, Inc. and its affiliates.Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: 

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.