SoftVC VITS 歌声変換と OpenVINO™#
この Jupyter ノートブックはオンラインで起動でき、ブラウザーのウィンドウで対話型環境を開きます。ローカルにインストールすることもできます。次のオプションのいずれかを選択します:
このチュートリアルは、SoftVC VITS 歌声変換プロジェクトに基づいています。このプロジェクトの目的は、開発者自身が愛するアニメ・キャラクターに歌のタスクを実行できるようにすることでした。開発者の意図は、架空の人物に焦点を当て、実在の人物を避けることであり、実在の人物に関連するものはすべて、開発者が意図するものではありません。
歌声変換モデルでは、SoftVC コンテンツ・エンコーダーを使用してソースオーディオから音声特徴を抽出します。これらの特徴ベクトルは、テキストベースの中間表現へ変換せずに、直接 VITS に供給されます。その結果、元のオーディオのピッチとイントネーションが維持されます。
このチュートリアルでは、基本モデルのフローを使用します。
目次:
必要条件#
%pip install -qU "pip<24.1" # to fix fairseq install problem
%pip install -q "openvino>=2023.2.0"
!git clone https://github.com/svc-develop-team/so-vits-svc -b 4.1-Stable
%pip install -q --extra-index-url https://download.pytorch.org/whl/cpu tqdm librosa "torch>=2.1.0" "torchaudio>=2.1.0" faiss-cpu "gradio>=4.19" "numpy>=1.23.5" "fairseq==0.12.2" praat-parselmouth
事前トレーニングされたモデルと構成をダウンロードします。推奨エンコーダー ContentVec と、Pony Preservation Project によって作成された so-vits-svc-4.0 モデル例のコレクションからのモデルを使用します。このプロジェクトまたは別のプロジェクトから他の事前トレーニング済みモデルを選択することも、独自のモデルを準備することもできます。
# `notebook_utils` モジュールを取得
import requests
r = requests.get(
url="https://raw.githubusercontent.com/openvinotoolkit/openvino_notebooks/latest/utils/notebook_utils.py",
)
open("notebook_utils.py", "w").write(r.text)
from notebook_utils import download_file
# ContentVec
download_file(
"https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt",
"checkpoint_best_legacy_500.pt",
directory="so-vits-svc/pretrain/",
)
# so-vits-svc-4.0 モデルのコレクションからの事前トレーニング済みモデルと構成。他のモデルを使用することもできます。
Download_file((
"https://huggingface.co/therealvul/so-vits-svc-4.0/resolve/main/Rainbow%20Dash%20(singing)/kmeans_10000.pt",
"kmeans_10000.pt",
directory="so-vits-svc/logs/44k/",
)
download_file(
"https://huggingface.co/therealvul/so-vits-svc-4.0/resolve/main/Rainbow%20Dash%20(singing)/config.json",
"config.json",
directory="so-vits-svc/configs/",
)
download_file(
"https://huggingface.co/therealvul/so-vits-svc-4.0/resolve/main/Rainbow%20Dash%20(singing)/G_30400.pth",
"G_30400.pth",
directory="so-vits-svc/logs/44k/",
)
download_file(
"https://huggingface.co/therealvul/so-vits-svc-4.0/resolve/main/Rainbow%20Dash%20(singing)/D_30400.pth",
"D_30400.pth",
directory="so-vits-svc/logs/44k/",
)
# wav のサンプル
download_file(
"https://huggingface.co/datasets/santifiorino/spinetta/resolve/main/spinetta/000.wav",
"000.wav",
directory="so-vits-svc/raw/",
)
元のモデルを使用して推論を実行#
内部相対パスを壊さないように、ディレクトリーを so-vits-svc
に変更します。
%cd so-vits-svc
ソヴィッツモデルを定義します。
from inference.infer_tool import Svc
model = Svc("logs/44k/G_30400.pth", "configs/config.json", device="cpu")
kwargs
を定義し、推論を行います。
kwargs = {
"raw_audio_path": "raw/000.wav", # ソースオーディオへのパス
"spk": "Rainbow Dash (singing)", # ソースオーディオを変換するスピーカー ID
"tran": 0,
"slice_db": -40,
"cluster_infer_ratio": 0,
"auto_predict_f0": False,
"noice_scale": 0.4,
}
audio = model.slice_inference(**kwargs)
そして、元のオーディオと結果を比較します。
import IPython.display as ipd
# オリジナル
ipd.Audio("raw/000.wav", rate=model.target_sample)
# 結果
ipd.Audio(audio, rate=model.target_sample)
OpenVINO IR モデルへ変換#
モデル・コンポーネントは PyTorch モジュールであり、ov.convert_model
関数を使用して直接変換できます。ov.save_model
関数を使用して変換結果をシリアル化します。Svc
はモデルではなく、内部でモデル推論を行います。基本シナリオでは、net_g_ms
という名前の SynthesizerTrn
のみが使用されます。このモデルのみを変換するだけで十分であるため、 infer
メソッドに forward
メソッドを再割り当てする必要があります。
SynthesizerTrn
は、フロー内でいくつかのモデル (TextEncoder
、Generator
、ResidualCouplingBlock
など) を使用しますが、この場合、OpenVINO を使用すると、内部を確認せずに 1 ステップでパイプライン全体を変換できます。
import openvino as ov
import torch
from pathlib import Path
dummy_c = torch.randn(1, 256, 813)
dummy_f0 = torch.randn(1, 813)
dummy_uv = torch.ones(1, 813)
dummy_g = torch.tensor([[0]])
model.net_g_ms.forward = model.net_g_ms.infer
net_g_kwargs = {
"c": dummy_c,
"f0": dummy_f0,
"uv": dummy_uv,
"g": dummy_g,
"noice_scale": torch.tensor(0.35), # 変換のため数値とブール値をラップする必要がある
"seed": torch.tensor(52468),
"predict_f0": torch.tensor(False),
"vol": torch.tensor(0),
}
core = ov.Core()
net_g_model_xml_path = Path("models/ov_net_g_model.xml")
if not net_g_model_xml_path.exists():
converted_model = ov.convert_model(model.net_g_ms, example_input=net_g_kwargs)
net_g_model_xml_path.parent.mkdir(parents=True, exist_ok=True)
ov.save_model(converted_model, net_g_model_xml_path)
OpenVINO モデルの実行#
OpenVINO を使用して推論を実行するデバイスをドロップダウン・リストから選択します。
import ipywidgets as widgets
import openvino as ov
core = ov.Core()
device = widgets.Dropdown(
options=core.available_devices + ["AUTO"],
value="AUTO",
description="Device:",
disabled=False,
)
device
net_g_ms
モデルのインターフェイスを維持するには、そのモデルのラッパーを作成する必要があります。次に、net_g_ms
の元のモデルを変換された IR モデルで置き換えます。ov.compile_model
を使用して、デバイスへのロードに使用できるようにします。
class NetGModelWrapper:
def __init__(self, net_g_model_xml_path):
super().__init__()
self.net_g_model = core.compile_model(net_g_model_xml_path, device.value)
def infer(self, c, *, f0, uv, g, noice_scale=0.35, seed=52468, predict_f0=False, vol=None):
if vol is None: # 入力なしは許可されません
results = self.net_g_model((c, f0, uv, g, noice_scale, seed, predict_f0))
else:
results = self.net_g_model((c, f0, uv, g, noice_scale, seed, predict_f0, vol))
return torch.from_numpy(results[0]), torch.from_numpy(results[1])
model.net_g_ms = NetGModelWrapper(net_g_model_xml_path)
audio = model.slice_inference(**kwargs)
結果をチェックします。元のモデルによって作成されたものと同じですか。
import IPython.display as ipd
ipd.Audio(audio, rate=model.target_sample)
インタラクティブな推論#
import gradio as gr
src_audio = gr.Audio(label="Source Audio", type="filepath")
output_audio = gr.Audio(label="Output Audio", type="numpy")
title = "SoftVC VITS Singing Voice Conversion with Gradio"
description = f'Gradio Demo for SoftVC VITS Singing Voice Conversion and OpenVINO™. Upload a source audio, then click the "Submit" button to inference. Audio sample rate should be {model.target_sample}'
def infer(src_audio, tran, slice_db, noice_scale):
kwargs["raw_audio_path"] = src_audio
kwargs["tran"] = tran
kwargs["slice_db"] = slice_db
kwargs["noice_scale"] = noice_scale
audio = model.slice_inference(**kwargs)
return model.target_sample, audio
demo = gr.Interface(
infer,
[
src_audio,
gr.Slider(-100, 100, value=0, label="Pitch shift", step=1),
gr.Slider(
-80,
-20,
value=-30,
label="Slice db",
step=10,
info="The default is -30, noisy audio can be -30, dry sound can be -50 to preserve breathing.",
),
gr.Slider(
0,
1,
value=0.4,
label="Noise scale",
step=0.1,
info="Noise level will affect pronunciation and sound quality, which is more metaphysical",
),
],
output_audio,
title=title,
description=description,
examples=[["raw/000.wav", 0, -30, 0.4, False]],
)
try:
demo.queue().launch(debug=False)
except Exception:
demo.queue().launch(share=True, debug=False)
# リモートで起動する場合は、server_name と server_port を指定します。
# demo.launch(server_name='your server name', server_port='server port in int')
# 詳細については、ドキュメントをご覧ください: https://gradio.app/docs/