神经架构
🔗 使用SpeechBrain和HuggingFace微调或使用Whisper、wav2vec2、HuBERT等
Parcollet T. & Moumen A. |
2022年12月 |
难度:中等 |
时间:20分钟 |
本教程描述了如何结合(使用和微调)来自HuggingFace的预训练模型。任何集成到HuggingFace的transformers接口的wav2vec 2.0 / HuBERT / WavLM或Whisper模型都可以插入到SpeechBrain中,以处理与语音相关的任务:自动语音识别、说话人识别、口语理解等。
🔗 用于更快低内存微调的神经网络适配器
普兰廷加 P. |
2024年9月 |
难度:简单 |
时间:20分钟 |
本教程涵盖了SpeechBrain中适配器(如LoRA)的实现。这包括如何将SpeechBrain实现的适配器、自定义适配器以及来自PEFT等库的适配器集成到预训练模型中。
🔗 复数和四元数神经网络
Parcollet T. |
2021年2月 |
难度:中等 |
时间:30分钟 |
本教程演示了如何使用SpeechBrain实现的复值和四元值神经网络进行语音技术。它涵盖了高维表示的基础知识以及相关的神经层:线性、卷积、循环和归一化。
🔗 循环神经网络
Ravanelli M. |
2021年2月 |
难度:简单 |
时间:30分钟 |
循环神经网络(RNNs)提供了一种自然的方式来处理序列。本教程演示了如何使用SpeechBrain实现的RNNs,包括LSTMs、GRU、RNN和LiGRU,这是一种专为语音相关任务设计的特定循环单元。RNNs是许多序列到序列模型的核心。
🔗 使用Conformers进行流式语音识别
德兰根 S. |
2024年9月 |
难度:中等 |
时间:60分钟以上 |
自动语音识别(ASR)模型通常仅设计用于转录整个大块音频,不适合用于需要低延迟、长格式转录的用例,如直播转录。
本教程介绍了动态分块训练方法以及您可以应用的架构更改,以使Conformer模型可流式传输。它介绍了SpeechBrain可以为您提供的训练和推理工具。 如果您对训练和理解自己的流式模型感兴趣,或者甚至想要探索改进的流式架构,这可能是一个很好的起点。