语音预处理

🔗 语音增强

Ravanelli M.

2021年1月

难度:简单

时间:20分钟

🔗 Google Colab

机器学习中有一句流行的话:“没有比更多数据更好的数据”。然而,收集新数据可能成本高昂,我们必须巧妙地使用可用的数据集。一种流行的技术称为语音增强。其思想是人为地破坏原始语音信号,给网络一种“错觉”,即我们正在处理一个新的信号。这作为一种强大的正则化器,通常有助于神经网络提高泛化能力,从而在测试数据上获得更好的性能。

🔗 傅里叶变换和频谱图

Ravanelli M.

2021年1月

难度:简单

时间:20分钟

🔗 Google Colab

在语音和音频处理中,时域中的信号经常被转换到另一个域。 但为什么我们需要转换音频信号呢?这是因为信号的某些语音特征/模式(例如,音高、共振峰) 在时域中查看音频时可能不太明显。通过适当设计的转换, 可能更容易从信号本身提取所需的信息。

最流行的变换是傅里叶变换,它将时域信号转换为频域中的等效表示。在接下来的部分中,我们将描述傅里叶变换以及其他相关变换,如短时傅里叶变换(STFT)和频谱图。

🔗 语音特征

Ravanelli M.

2021年1月

难度:简单

时间:20分钟

🔗 Google Colab

语音是一种非常高维的信号。例如,当采样频率为16 kHz时,每秒有16000个样本。从机器学习的角度来看,处理如此高维的数据可能非常关键。特征提取的目标是找到更紧凑的方式来表示语音。

🔗 环境腐败

Ravanelli M.

2021年2月

难度:中等

时间:20分钟

🔗 Google Colab

在实际的语音处理应用中,麦克风记录的信号会受到噪声和混响的干扰。 这在远场(远距离)场景中尤其有害,其中说话者和参考麦克风之间的距离较远 (想想像Google Home、Amazon Echo、Kinect等流行设备)。

🔗 多麦克风波束成形

Grondin F. & Aris W.

2021年1月

难度:中等

时间:20分钟

🔗 Google Colab

使用麦克风阵列在执行语音识别任务之前可以非常方便地提高信号质量(例如减少混响和噪声)。麦克风阵列还可以估计声源的到达方向,这些信息随后可以用于“监听”感兴趣声源的方向。