noise-suppression-poconetlike-0001#

ユースケースと概要説明#

これは、音声をよりクリーンにするノイズ抑制を行う PoCoNet に似たモデルです。このモデルは PoCoNet アーキテクチャーに基づいており、DNS-Challenge データセット論文に基づいてトレーニングされています。ネットワークは 16kHz でサンプリングされたモノラルオーディオで動作します。オーディオは 2048 サイズのパッチによって反復処理されます。各反復で 2048 (128ms) サンプルを入力として受け取り、640 (40ms) サンプル遅延で 2048 (128ms) サンプルを出力として返します。さらに、ネットワークでは処理をシームレスにするため 50 個の状態テンソルが必要です。最初の反復では、状態テンソルを 0 で埋める必要があります。反復の結果として、テンソルは前の反復の対応する出力から取得する必要があります。ノイズ抑制 Python* デモを試して、その仕組みを確認してください。

仕様#

は 2048 サンプル、つまり 16kHz の場合は 128ms を処理します。

メトリック

GOps

1.2

MParams

7.22

ソース・フレームワーク

PyTorch*

精度#

SISDR 品質メトリックは、DNS-Challenge 2021 データセットから 100 個の開発テスト合成音声クリップに基づいて計算されました。

メトリック

入力ノイズ信号用の SISDR

11.73 dB

出力クリーン信号用の SISDR

20.54 dB

SISDR の増加

+8.81 dB

入力#

シーケンスパッチ、名前: input、形状: 1, 2048、形式: B, T、ここで:

  • B - バッチサイズ

  • T - パッチ内のサンプル数

入力状態、名前: inp_state_*、前のステップからの対応する out_state_* を入力する必要があります

出力#

シーケンスパッチ、名前: output、形状: 1, 2048、形式: B, T、ここで:

  • B - バッチサイズ

  • T - パッチ内のサンプル数 注: 出力パッチは、時間内で 640 (40ms) サンプルずつ “シフト” されます。したがって、output[0,i] サンプルは input[0,i-640] サンプルと同期されます

出力状態、名前: out_state_*、次のステップで対応する inp_state_* を埋めるために使用する必要があります。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します: