noise-suppression-denseunet-ll-0001#

ユースケースと概要説明#

音声をクリーンにするノイズ抑制モデルです。モデル・アーキテクチャーは PoCoNet、チャネル・アテンション・デンス U-Net に似ていますが、モデルの複雑性を軽減し、処理速度を向上させるマルチヘッド・アテンション (MHA) がありません。また、処理されるパッチサイズを削減して遅延を小さくするため、時間軸に沿ったピラミッド構造が削減され、時間軸に沿った拡張を伴う畳み込みが使用されます。モデルは DNS-Challenge データセットの論文でトレーニングされました。ネットワークは 16kHz でサンプリングされたモノラルオーディオで動作します。オーディオは 128 サイズのパッチによって反復処理されます。各反復で 128 (8ms) サンプルを入力として受け取り、384 (24ms) サンプル遅延で 128 (8ms) サンプルを出力として返します。さらに、ネットワークでは処理をシームレスにするため 39 個の状態テンソルが必要です。最初の反復では、状態テンソルを 0 で埋める必要があります。反復の結果として、テンソルは前の反復の対応する出力から取得する必要があります。ノイズ抑制 CPP* デモを試して、その仕組みを確認してください。

仕様#

は 128 サンプル、つまり 16kHz の場合は 8ms を処理します。

メトリック	値
GOps	0.2
MParams	4.2
ソース・フレームワーク	PyTorch*

精度#

SISDR 品質メトリックは、DNS-Challenge データセットから 100 個の開発テスト合成音声クリップに基づいて計算されました。

メトリック	値
入力ノイズ信号用の SISDR	11.7 dB
出力クリーン信号用の SISDR	20.0 dB
SISDR の増加	+8.3 dB

入力#

シーケンスパッチ、名前: input、形状: 1, 128、形式: B, T、ここで:

B - バッチサイズ
T - パッチ内のサンプル数

入力状態、名前: inp_state_*、前のステップからの対応する out_state_* を入力する必要があります。入力ステートの総数は 39 です

出力#

シーケンスパッチ、名前: output、形状: 1, 128、形式: B, T、ここで:

B - バッチサイズ
T - パッチ内のサンプル数

注: 出力パッチは、時間的に 384 (24ms) サンプルずつ “シフト” されます。したがって、output[0,i] サンプルは input[0,i-384] サンプルと同期されます

出力状態、名前: out_state_*、次のステップで対応する inp_state_* を埋めるために使用する必要があります。出力ステートの総数は 39 です

次の出力の処理はオプションです

出力スペクトル、名前: Y、形状: 1, 2, 129, 1、形式: B, C, F, T、ここで:

B - バッチサイズ
C - 複素数値コンポーネントの数 (常に 2)
F - 周波数ビンの数
T - パッチ内のスペクトルの数

出力遅延、名前: delay、形状: 1、形式: C、ここで:

C - 遅延の数 (常に 1) これは便宜上提供されており、入力に対する出力の “シフト” が含まれています。このモデルでは 384 ですが、他のノイズ抑制モデルでは異なる場合があります。

デモの使い方#

このモデルは、Open Model Zoo が提供する次のデモで使用して、その機能を示します:

法務上の注意書き#

* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。