神经架构

🔗 使用SpeechBrain和HuggingFace微调或使用Whisper、wav2vec2、HuBERT等

Parcollet T. & Moumen A.

2022年12月

难度:中等

时间:20分钟

🔗 Google Colab

本教程描述了如何结合(使用和微调)来自HuggingFace的预训练模型。任何集成到HuggingFace的transformers接口的wav2vec 2.0 / HuBERT / WavLM或Whisper模型都可以插入到SpeechBrain中,以处理与语音相关的任务:自动语音识别、说话人识别、口语理解等。

🔗 用于更快低内存微调的神经网络适配器

普兰廷加 P.

2024年9月

难度:简单

时间:20分钟

🔗 Google Colab

本教程涵盖了SpeechBrain中适配器(如LoRA)的实现。这包括如何将SpeechBrain实现的适配器、自定义适配器以及来自PEFT等库的适配器集成到预训练模型中。

🔗 复数和四元数神经网络

Parcollet T.

2021年2月

难度:中等

时间:30分钟

🔗 Google Colab

本教程演示了如何使用SpeechBrain实现的复值和四元值神经网络进行语音技术。它涵盖了高维表示的基础知识以及相关的神经层:线性、卷积、循环和归一化。

🔗 循环神经网络

Ravanelli M.

2021年2月

难度:简单

时间:30分钟

🔗 Google Colab

循环神经网络(RNNs)提供了一种自然的方式来处理序列。本教程演示了如何使用SpeechBrain实现的RNNs,包括LSTMs、GRU、RNN和LiGRU,这是一种专为语音相关任务设计的特定循环单元。RNNs是许多序列到序列模型的核心。

🔗 使用Conformers进行流式语音识别

德兰根 S.

2024年9月

难度:中等

时间:60分钟以上

🔗 Google Colab

自动语音识别(ASR)模型通常仅设计用于转录整个大块音频,不适合用于需要低延迟、长格式转录的用例,如直播转录。

本教程介绍了动态分块训练方法以及您可以应用的架构更改,以使Conformer模型可流式传输。它介绍了SpeechBrain可以为您提供的训练和推理工具。 如果您对训练和理解自己的流式模型感兴趣,或者甚至想要探索改进的流式架构,这可能是一个很好的起点。