text-to-speech-en-multi-0001 (複合)

ユースケースと概要説明

テキストからメルスペクトログラムと波形を同時に再構築する音声合成複合モデルです。このモデルは、40 人の話者に対してスペースで区切られたシンボルのシーケンスから波形を生成します。話者の音声特性は 2 つの数値のベクトルで表されます。モデルは、修正された ForwardTacotron および修正された MelGAN フレームワーク上に構築されます。

複合モデル仕様

メトリック

ソース・フレームワーク

PyTorch*

期間予測モデルの仕様

text-to-speech-en-multi-0001-duration-prediction モデルは、ForwardTacotron ベースのシンボルの継続時間プレディケーターです。

メトリック

GFlops

28.75

MParams

26.18

入力

  1. シーケンス、名前: input_seq、形状: 1, 512、形式: B,C

    説明:

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

  2. 入力シーケンスのマスク、名前: input_mask、形状: 1, 1, 512、形式: B, D, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

  3. アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

  4. 話者の音声埋め込みを表すベクトル、名前: speaker_embedding、形状: 1, 2、形式: B, D

    説明:

    • B - バッチサイズ

    • D - 埋め込みベクトルのサイズ

出力

  1. 入力シンボルの継続時間、名前: duration、形状: 1, 512, 1、形式: B, C, H、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

    • H - 空の次元

  2. 処理された埋め込み、名前: embeddings、形状: 1, 512, 256、形式: B, C, H、ここで: 各シンボルの処理された埋め込みが順番に含まれます。

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

    • H - 中間特徴マップの高さ

メルスペクトログラム回帰モデルの仕様

text-to-speech-en-multi-0001-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。

メトリック

GFlops

7.81

MParams

5.12

入力

  1. 期間ごとに整列された処理された埋め込み、名前: data、形状: 1, 512, 256、形式: B, T, C

    説明:

    • B - バッチサイズ

    • T - メルスペクトログラムの時間

    • C - 処理された埋め込み次元

  2. 時間次元による data のマスク、名前: data_mask、形状: 1, 1, 512、形式: B, D, T

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • T - メルスペクトログラムの時間

  3. アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

  4. 話者の音声埋め込みを表すベクトル、名前: speaker_embedding、形状: 1, 2、形式: B, D

    説明:

    • B - バッチサイズ

    • D - 埋め込みベクトルのサイズ

出力

メルスペクトログラム、名前: mel、形状: 80, 512、形式: C, T

説明:

  • T - メルスペクトログラムの時間

  • C - メルスペクトログラムの行数

オーディオ生成モデルの仕様

text-to-speech-en-multi-0001-generation モデルは、MelGAN ベースのオーディオ・ジェネレーターです。

メトリック

GFlops

48.38

MParams

12.77

入力

メルスペクトログラム、名前: mel、形状: 1, 80, 128、形式: B, C, T

説明:

  • B - バッチサイズ

  • C - メルスペクトログラムの行数

  • T - メルスペクトログラムの時間

出力

オーディオ、名前 - audio、形状 - 32768、形式 - T

説明:

  • T - サンプリング・レート 22050 のオーディオの時間 (約 1.5 秒)。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。