speechbrain.lobes.models.huggingface_transformers.hubert 模块
该模块支持集成huggingface预训练的hubert模型。
参考: https://arxiv.org/abs/2006.11477 参考: https://arxiv.org/abs/1904.05862 参考: https://arxiv.org/abs/2110.13900 需要安装来自HuggingFace的Transformer: https://huggingface.co/transformers/installation.html
- Authors
Titouan Parcollet 2021
Boumadane Abdelmoumene 2021
Ha Nguyen 2023
摘要
类:
该模块支持集成HuggingFace和SpeechBrain预训练的HuBERT模型。 |
参考
- class speechbrain.lobes.models.huggingface_transformers.hubert.HuBERT(source, save_path, output_norm=False, freeze=False, freeze_feature_extractor=False, apply_spec_augment=False, output_all_hiddens=False)[source]
基础:
Wav2Vec2这个模块使得HuggingFace和SpeechBrain预训练的HuBERT模型能够集成。
源论文HuBERT: https://arxiv.org/abs/2106.07447 需要安装来自HuggingFace的Transformer: https://huggingface.co/transformers/installation.html
该模型可以用作固定的特征提取器,也可以进行微调。它将自动从HuggingFace下载模型或使用本地路径。
目前,HuggingFace的HuBERT和WavLM模型可以使用与Wav2Vec2模型完全相同的代码加载。 因此,HuBERT和WavLM可以很好地继承Wav2Vec2类。
- Parameters:
source (str) – HuggingFace 中心名称:例如 “facebook/hubert-base-ls960”
save_path (str) – 下载模型的路径(目录)。
output_norm (bool (默认值: True)) – 如果为True,将对从HuBERT模型获得的输出应用layer_norm(仿射)。
freeze (bool (默认值: True)) – 如果为True,模型将被冻结。如果为False,模型将与管道的其余部分一起训练。
freeze_feature_extractor (bool (默认值: False)) – 当 freeze = False 且 freeze_feature_extractor 为 True 时,模型的 feature_extractor 模块将被冻结。如果为 False,则包括 feature_extractor 模块在内的整个 HuBERT 模型都将被训练。
apply_spec_augment (bool (默认值: False)) – 如果为True,模型将在特征提取器的输出上应用频谱增强 (在huggingface HubertModel()类内部)。 如果为False,模型将不会应用频谱增强。我们将其设置为false以防止重复应用。
output_all_hiddens (bool (默认值: False)) – 如果为True,前向函数会输出所有transformer层的隐藏状态。 例如,facebook/hubert-base-ls960有12个transformer层,输出形状为(13, B, T, C), 其中CNN输出的投影被添加到开头。 如果为False,前向函数仅输出最后一个transformer层的隐藏状态。
Example
>>> import torch >>> inputs = torch.rand([10, 600]) >>> model_hub = "facebook/hubert-base-ls960" >>> save_path = "savedir" >>> model = HuBERT(model_hub, save_path) >>> outputs = model(inputs)