text-to-speech-en-0001 (複合)

ユースケースと概要説明

テキストからメルスペクトログラムと波形を同時に再構築する音声合成複合モデルです。モデルは、スペースで区切ったシンボルのシーケンスから波形を生成します。モデルは、修正された ForwardTacotron および修正された MelGAN フレームワーク上に構築されます。

複合モデル仕様

メトリック

ソース・フレームワーク

PyTorch*

期間予測モデルの仕様

text-to-speech-en-0001-duration-prediction モデルは、ForwardTacotron ベースのシンボルの継続時間プレディケーターです。

メトリック

GFlops

15.84

MParams

13.569

入力

  1. シーケンス、名前: input_seq、形状: 1, 512、形式: B,C

    説明:

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

  2. 入力シーケンスのマスク、名前: input_mask、形状: 1, 1, 512、形式: B, D, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

  3. アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

出力

  1. 入力シンボルの継続時間、名前: duration、形状: 1, 512, 1、形式: B, C, H、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

    • H - 空の次元

  2. 処理された埋め込み、名前: embeddings、形状: 1, 512, 256、形式: B, C, H、ここで: 各シンボルの処理された埋め込みが順番に含まれます。

    • B - バッチサイズ

    • C - シーケンス内のシンボルの数

    • H - 中間特徴マップの高さ

メルスペクトログラム回帰モデルの仕様

text-to-speech-en-0001-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。

メトリック

GFlops

7.65

MParams

4.96

入力

  1. 期間ごとに整列された処理された埋め込み、名前: data、形状: 1, 512, 256、形式: B, T, C

    説明:

    • B - バッチサイズ

    • T - メルスペクトログラムの時間

    • C - 処理された埋め込み次元

  2. 時間次元による data のマスク、名前: data_mask、形状: 1, 1, 512、形式: B, D, T

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • T - メルスペクトログラムの時間

  3. アテンションにおける相対位置表現用のマスク、名前: pos_mask、形状: 1, 1, 512, 512、形式: B, D, C, C

    説明:

    • B - バッチサイズ

    • D - 乗算用の追加次元

    • C - シーケンス内のシンボルの数

出力

メルスペクトログラム、名前: mel、形状: 80, 512、形式: C, T

説明:

  • T - メルスペクトログラムの時間

  • C - メルスペクトログラムの行数

オーディオ生成モデルの仕様

text-to-speech-en-0001-generation モデルは、MelGAN ベースのオーディオ・ジェネレーターです。

メトリック

GFlops

48.38

MParams

12.77

入力

メルスペクトログラム、名前: mel、形状: 1, 80, 128、形式: B, C, T

説明:

  • B - バッチサイズ

  • C - メルスペクトログラムの行数

  • T - メルスペクトログラムの時間

出力

オーディオ、名前 - audio、形状 - 32768、形式 - T

説明:

  • T - サンプリング・レート 22050 のオーディオの時間 (約 1.5 秒)。

デモの使い方

Open Model Zoo が提供する次のデモでこのモデルを使用して、その機能を確認できます。