wav2vec2-base#

ユースケースと概要説明#

Wav2Vec2.0-base は、wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations の論文で説明されているように、ラベルなしデータの音声表現を学習するように事前トレーニングされ、960 時間の音声を含む LibriSpeech データセットの損失におけるコネクショニスト時間分類 (CTC) を使用した音声認識タスク用に調整されたモデルです。このモデルは、生の音声を入力として受け取り、潜在的な音声表現を出力するマルチレイヤー畳み込み特徴エンコーダーで構成され、その後、トランスフォーマーに供給され、シーケンス全体から情報を取得する表現を構築します。基本モデルのトランスフォーマーは 12 のトランスレイヤーで構成され、フィーチャー次元は 768 です。詳細については、リポジトリーモデルカードも確認してください。

仕様#

メトリック

タイプ

音声認識

GFLOPs

26.843

MParams

94.3965

ソース・フレームワーク

PyTorch*

精度#

メトリック

WER @ Librispeech test-clean

3.39%

入力#

元のモデル#

正規化されたオーディオ信号、名前 - inputs、形状 - B, N、形式 - B, N、ここで:

  • B - バッチサイズ

  • N - シーケンス長

モデルは動的であり、さまざまな形状の入力を処理できます。

: モデルは、入力データとして 16 ビット、16 kHz、モノチャネル WAVE オーディオを想定しています。

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

出力#

元のモデル#

アルファベットの各シンボルのトークンごとの確率 (LogSoftmax 後)、名前 - logits、形状 - B, N, 32、出力データ形式 - B, N, C、ここで:

  • B - バッチサイズ

  • N - 認識されたトークンの数

  • C - アルファベット/サイズ

モデルは動的であるため、BN 次元は異なる値を取ることができます。アルファベットのサイズ C は静的で、32 にに等しくなります。モデルのアルファベット: “[pad]”、“[s]”、“[/s]”、“[unk]”、“|”、“E”、“T”、“A”、“O”、“N”、“I”、“H”、“S”、“R”、“D”、“L”、“U”、“M”、“W”、“C”、“F”、“G”、“Y”、“P”、“B”、“V”、“K”、“’”、“X”、“J”、“Q”、“Z”、ここで:

  • [pad] - CTC ブランクラベルとして使用されるパディングトークン

  • [s] - 文字列の先頭

  • [/s] - 文字列の最後

  • [unk] - 不明なシンボル

  • | - 単語間の区切り文字として使用される空白記号。

変換されたモデル#

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

モデルをダウンロードして OpenVINO™ IR 形式に変換#

以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

モデル・ダウンローダーの使用例:

omz_downloader --name <model_name>

モデル・コンバーターの使用例:

omz_converter --name <model_name>

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: