speechbrain.lobes.models
定义神经网络模型的包(CRDNN, Xvectors …)
一些组件支持BEST RQ训练,如原始论文所述:https://arxiv.org/pdf/2202.01855。 |
|
卷积、循环和全连接网络的组合。 |
|
该文件实现了来自https://arxiv.org/abs/1912.10211的CNN14模型 |
|
SpeechBrain 实现的 ContextNet,参考 https://arxiv.org/pdf/2005.03191.pdf |
|
用于DIFFWAVE的神经网络模块:一种用于音频合成的多功能扩散模型 |
|
一个流行的说话人识别和说话人分割模型。 |
|
这个lobes复制了最初在ESPNET v1中引入的编码器 |
|
用于语音增强的宽ResNet。 |
|
用于FastSpeech 2的神经网络模块:快速且高质量的端到端文本到语音合成模型 作者 * Sathvik Udupa 2022 * Pradnya Kandarkar 2023 * Yingzhi Wang 2023 |
|
用于HiFi-GAN的神经网络模块:高效和高保真语音合成的生成对抗网络 |
|
该文件实现了从https://arxiv.org/abs/2202.11479v2中实现Listen-to-Interpret (L2I)解释方法所需的类和函数。 |
|
用于零样本多说话者Tacotron2端到端神经文本到语音(TTS)模型的神经网络模块 |
|
在MetricGAN中使用的生成器和判别器 |
|
在MetricGAN-U中使用的生成器和判别器 |
|
该文件实现了通过量化实现事后解释所需的类和函数。 |
|
实现一个循环语言模型。 |
|
用于说话人验证的ResNet预激活模型 |
|
用于Tacotron2端到端神经文本到语音(TTS)模型的神经网络模块 |
|
用于简单测试的普通神经网络。 |
|
一个流行的说话人识别和分割模型。 |
|
该模块支持集成预训练的BEATs:使用声学标记器进行音频预训练。 |
|
实现了一个流行的语音分离模型。 |
|
这是一个模块,用于集成带有或不带有残差连接的卷积(深度)编码器。 |
|
支持双路径语音分离的库。 |
|
该模块允许集成fairseq预训练的wav2vec模型。 |
|
K-means 实现。 |
|
资源高效Sepformer的库。 |
|
该文件包含两个PyTorch模块,它们共同构成了SEGAN模型架构(基于论文:Pascual等人 https://arxiv.org/pdf/1703.09452.pdf)。 |
|
构建wav2vec 2.0架构所需的组件,遵循原始论文:https://arxiv.org/abs/2006.11477。 |
高级处理模块。 |
|
提供简单封装的flair模型包。 |
|
高级处理模块。 |
|
提供简单封装的spaCy模型的包。 |
|
高级处理模块。 |