用户指南
SpeechBrain 是一个基于 PyTorch 的开源一体化语音工具包。 本文档提供了安装步骤、教程和 API 文档, 以帮助用户开发他们的项目。
License considerations (Apache 2.0)
SpeechBrain 是根据 Apache 许可证,版本 2.0 发布的。Apache 许可证是一种类似于 BSD 的流行许可证。 SpeechBrain 可以免费重新分发,即使是用于商业目的,尽管你不能移除许可证头(在某些情况下,你可能需要分发一份许可证文件)。 Apache 不像 GPL 那样具有传染性,后者强制你发布对源代码的修改。另外请注意,除了我们使用相同的许可证条款外,该项目与 Apache 基金会没有任何联系。
这是一个社区项目,这意味着讨论是在整个社区范围内进行的,而决策则由Ravanelli博士和Parcollet博士根据社区的意见做出。 没有与SpeechBrain所有者相关的法律机构。此外,由于Apache许可证,任何不同意项目运行方式的人都可以分叉它并启动一个新的工具包。
Referencing SpeechBrain (BibTeX)
如果您在研究中或业务中使用SpeechBrain,请使用以下BibTeX条目引用它:
@misc{speechbrainV1,
title={Open-Source Conversational AI with {SpeechBrain} 1.0},
author={Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve},
year={2024},
eprint={2407.00463},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2407.00463},
}
@misc{speechbrain,
title={SpeechBrain: A General-Purpose Speech Toolkit},
author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio},
year={2021},
eprint={2106.04624},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
我们为初学者和高级用户提供了完整的Jupyter Notebook教程!您可以在文档中查看它们,在Google Colab中运行它们,或者使用Jupyter Notebook在本地运行它们。
入门指南
API
全面的语音处理工具包 |
|
用于对齐转录文本和语音信号的工具 |
|
包含各种数据增强技术的包 |
|
数据加载和数据集预处理 |
|
包含不同解码器(ctc、beamsearch ...)的包 |
|
导入所有推理接口 |
|
提供k2-fsa集成的包。 |
|
定义语言模型的包 |
|
定义常见模块的包(DNN模型,处理...) |
|
包含不同神经网络层的包 |
|
包含各种语音处理技术的包 |
|
定义SentencePiece分词器的包 |
|
包含各种工具的包(准确率、检查点...) |
|
该库收集了用于hyperpyyaml加载的实用工具 |