text-to-speech-en-multi-0001 (複合)¶
ユースケースと概要説明¶
テキストからメルスペクトログラムと波形を同時に再構築する音声合成複合モデルです。このモデルは、40 人の話者に対してスペースで区切られたシンボルのシーケンスから波形を生成します。話者の音声特性は 2 つの数値のベクトルで表されます。モデルは、修正された ForwardTacotron および修正された MelGAN フレームワーク上に構築されます。
複合モデル仕様¶
メトリック |
値 |
---|---|
ソース・フレームワーク |
PyTorch* |
期間予測モデルの仕様¶
text-to-speech-en-multi-0001-duration-prediction モデルは、ForwardTacotron ベースのシンボルの継続時間プレディケーターです。
メトリック |
値 |
---|---|
GFlops |
28.75 |
MParams |
26.18 |
入力¶
-
シーケンス、名前:
input_seq
、形状:1, 512
、形式:B,C
。説明:
B
- バッチサイズC
- シーケンス内のシンボルの数
-
入力シーケンスのマスク、名前:
input_mask
、形状:1, 1, 512
、形式:B, D, C
。説明:
B
- バッチサイズD
- 乗算用の追加次元C
- シーケンス内のシンボルの数
-
アテンションにおける相対位置表現用のマスク、名前:
pos_mask
、形状:1, 1, 512, 512
、形式:B, D, C, C
。説明:
B
- バッチサイズD
- 乗算用の追加次元C
- シーケンス内のシンボルの数
-
話者の音声埋め込みを表すベクトル、名前:
speaker_embedding
、形状:1, 2
、形式:B, D
。説明:
B
- バッチサイズD
- 埋め込みベクトルのサイズ
出力¶
-
入力シンボルの継続時間、名前:
duration
、形状:1, 512, 1
、形式:B, C, H
、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。B
- バッチサイズC
- シーケンス内のシンボルの数H
- 空の次元
-
処理された埋め込み、名前:
embeddings
、形状:1, 512, 256
、形式:B, C, H
、ここで: 各シンボルの処理された埋め込みが順番に含まれます。B
- バッチサイズC
- シーケンス内のシンボルの数H
- 中間特徴マップの高さ
メルスペクトログラム回帰モデルの仕様¶
text-to-speech-en-multi-0001-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。
メトリック |
値 |
---|---|
GFlops |
7.81 |
MParams |
5.12 |
入力¶
-
期間ごとに整列された処理された埋め込み、名前:
data
、形状:1, 512, 256
、形式:B, T, C
。説明:
B
- バッチサイズT
- メルスペクトログラムの時間C
- 処理された埋め込み次元
-
時間次元による
data
のマスク、名前:data_mask
、形状:1, 1, 512
、形式:B, D, T
。説明:
B
- バッチサイズD
- 乗算用の追加次元T
- メルスペクトログラムの時間
-
アテンションにおける相対位置表現用のマスク、名前:
pos_mask
、形状:1, 1, 512, 512
、形式:B, D, C, C
。説明:
B
- バッチサイズD
- 乗算用の追加次元C
- シーケンス内のシンボルの数
-
話者の音声埋め込みを表すベクトル、名前:
speaker_embedding
、形状:1, 2
、形式:B, D
。説明:
B
- バッチサイズD
- 埋め込みベクトルのサイズ
オーディオ生成モデルの仕様¶
text-to-speech-en-multi-0001-generation モデルは、MelGAN ベースのオーディオ・ジェネレーターです。
メトリック |
値 |
---|---|
GFlops |
48.38 |
MParams |
12.77 |
入力¶
メルスペクトログラム、名前: mel
、形状: 1, 80, 128
、形式: B, C, T
。
説明:
B
- バッチサイズC
- メルスペクトログラムの行数T
- メルスペクトログラムの時間
法務上の注意書き¶
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。