forward-tacotron (複合)¶
ユースケースと概要説明¶
ForwardTacotron は、元々 PyTorch* でトレーニングされ、その後 ONNX* 形式に変換されたテキスト読み上げタスクモデルです。モデルは LJSpeech データセットでトレーニングされました。ForwardTacotron は、テキストからメルスペクトログラム回帰を実行します。詳細については論文、論文とリポジトリーを参照してください。
ONNX モデル¶
利便性のため、事前トレーニングされたモデルを ONNX 形式で提供します。
PyTorch でトレーニングを再現して ONNX に変換する手順¶
モデルは以下の手順で取得した ONNX 形式で提供されます。
元のリポジトリーのクローンを作成します。
git clone https://github.com/as-ideas/ForwardTacotron
cd ForwardTacotron
変換がテストされたコミットをチェックアウトします。
git checkout 78789c1aa845057bb2f799e702b1be76bf7defd0
README.md に従って、ForwardTacotron モデルをトレーニングします。
提供されたスクリプト
forward_to_onnx.py
を ForwardTacotron のルート・ディレクトリーにコピーします。スクリプトを実行して ForwardTacotron を onnx 形式に変換します。
python3 forward_to_onnx.py --tts_weights checkpoints/ljspeech_tts.forward/fast_speech_step<iteration>K_weights.pyt
注:
ONNX は PyTorch パイプラインからの build_index 操作をサポートしていないため、モデルは 2 つの部分 (
forward_tacotron_duration_prediction.onnx, forward_tacotron_regression.onnx
) に分割されています。アライメント生成のため 183K 反復で Tacotron モデルのトレーニングを停止し、290K 反復で ForwardTacotron トレーニングを停止しました。
forward-tacotron-duration-prediction モデルの仕様¶
forward-tacotron-duration-prediction モデルは、前処理されたテキスト (リポジトリーの text_to_sequence を参照) を受け入れ、処理された埋め込みと、処理されたすべての埋め込みの期間を生成します。
メトリック |
値 |
---|---|
GOPs |
6.66 |
MParams |
13.81 |
出力¶
-
入力シンボルの継続時間、名前:
duration
、形状:1, 241, 1
、形式:B, C, H
、ここで: シーケンス内の各シンボルの予測継続時間が含まれます。B
- バッチサイズC
- 連続する記号の数 (文字または音素)H
- 空の次元
-
処理された埋め込み、名前:
embeddings
、形状:1, 241, 512
、形式:B, C, H
、ここで: 各シンボルの処理された埋め込みが順番に含まれます。B
- バッチサイズC
- 連続する記号の数 (文字または音素)H
- 中間特徴マップの高さ
forward-tacotron-regression モデルの仕様¶
forward-tacotron-regression モデルは、長さで整列され処理された埋め込みを受け入れます (例えば、長さが [2, 3] で、処理された埋め込みが [[1, 2], [3, 4]] の場合、整列された埋め込みは [[1, 2], [1, 2], [1,2], [3, 4], [3, 4]] になります)、メルスペクトログラムを生成します。
メトリック |
値 |
---|---|
GOPs |
4.91 |
MParams |
3.05 |
入力¶
期間ごとに整列された処理された埋め込み、名前: data
、形状: 1, 805, 512
、形式: B, T, C
。
説明:
B
- バッチサイズT
- メルスペクトログラムの時間C
- 処理された埋め込み次元
モデルをダウンロードして OpenVINO™ IR 形式に変換¶
以下の例に示すように、モデルをダウンロードし、必要に応じてモデル・ダウンローダーやその他の自動化ツールによってモデルを OpenVINO™ IR 形式に変換できます。
モデル・ダウンローダーの使用例:
omz_downloader --name <model_name>
モデル・コンバーターの使用例:
omz_converter --name <model_name>
法務上の注意書き¶
元のモデルは、こちらのライセンスに基づいて配布されています。
MIT License
Copyright (c) 2020 Axel Springer AI. All rights reserved.
Copyright (c) 2019 fatchord (https://github.com/fatchord)
Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:
The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.