Audio Samples from "Noise-Robust Voice Conversion by Conditional Denoising Training (CDT) Using Latant Variables of Speech Quality and Recording Environment"

Voice Conversion (VC) samples

Baseline: Conventional Denoising Training (DT) [Huang+22]
(uw, uw): CDT using utterance-wise NISQA features and utterance-wise PaSST features
(uw, fw): CDT using utterance-wise NISQA features and frame-wise PaSST features
(fw, uw): CDT using frame-wise NISQA features and utterance-wise PaSST features
(fw, fw): CDT using frame-wise NISQA features and frame-wise PaSST features