wav2vec2-base

ユースケースと概要説明

Wav2Vec2.0-base は、wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations の論文で説明されているように、ラベルなしデータの音声表現を学習するように事前トレーニングされ、960 時間の音声を含む LibriSpeech データセットの損失における Connectionist Temporal Classification (CTC) を使用した音声認識タスク用に調整されたモデルです。このモデルは、生の音声を入力として受け取り、潜在的な音声表現を出力するマルチレイヤー畳み込み特徴エンコーダーで構成され、その後、トランスフォーマーに供給され、シーケンス全体から情報を取得する表現を構築します。基本モデルのトランスフォーマーは 12 のトランスレイヤーで構成され、特徴次元は 768 です。詳細については、リポジトリーモデルカードも確認してください。

仕様

メトリック

タイプ

音声認識

GFLOPs

26.843

MParams

94.3965

ソース・フレームワーク

PyTorch*

精度

メトリック

WER @ Librispeech test-clean

3.39%

入力

元のモデル

正規化されたオーディオ信号、名前 - inputs、形状 - B, N、形式 - B, N

説明:

  • B - バッチサイズ

  • N - シーケンス長

モデルは動的であり、さまざまな形状の入力を処理できます。

注: モデルは、入力データとして 16 ビット、16 kHz、モノチャネル WAVE オーディオを想定しています。

変換されたモデル

変換されたモデルには、元のモデルと同じパラメーターが含まれます。

出力

元のモデル

アルファベットの各シンボルのトークンごとの確率 (LogSoftmax 後)、名前 - logits、形状 - B, N, 32、出力データ形式 - B, N, C

説明:

  • B - バッチサイズ

  • N - 認識されたトークンの数

  • C - アルファベット/サイズ

B モデルは動的であるため、 N 次元は異なる値を取ることができます。アルファベットのサイズ C は静的で、32 に等しくなります。

  • モデルのアルファベット: “[pad]”、“[s]”、“[/s]”、“[unk]”、“|”、“E”、“T”、“A”、“O”、“N”、“I”、“H”、“S”、“R”、“D”、“L”、“U”、 “M”、“W”、“C”、“F”、“G”、“Y”、“P”、“B”、“V”、“K”、“’”、“X”、“J”、“Q”、“Z”、ここで:
    • [pad] - CTC ブランクラベルとして使用されるパディングトークン

    • [s]- 文字列の先頭

    • [/s] - 文字列の最後

    • [unk] - 不明なシンボル

    • | - 単語間の区切り文字として使用される空白記号

    変換されたモデル

    変換されたモデルには、元のモデルと同じパラメーターが含まれます。

    モデルをダウンロードして OpenVINO™ IR 形式に変換

    以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。

    モデル・ダウンローダーの使用例:

    omz_downloader --name <model_name>
    

    モデル・コンバーターの使用例:

    omz_converter --name <model_name>
    

    デモの使い方

    Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。