ESPnet-SDS
约2分钟
ESPnet-SDS
这是ESPnet-SDS配方的模板。ESPnet-SDS是一个开源工具包,用于为各种级联和端到端(E2E)语音对话系统构建统一的网页界面,支持实时自动评估指标和人在环反馈收集。本README描述了ESPnet-SDS工具包的功能,并为用户提供了关于导航演示界面的全面说明。
功能特性
- 即插即用对话系统
- 通过从可用选项中选择,尝试各种ASR、LLM和TTS系统。
- Switch between:
- 级联系统: 独立的ASR、LLM和TTS组件。
- 端到端系统: 集成的处理流程。
- 实时评估指标
- Evaluate system performance using:
- 延迟: 响应时间。
- TTS可懂度: 合成语音的可理解性。
- TTS语音质量: 合成语音的清晰度与质量。
- ASR WER: 用于衡量转录准确度的词错误率。
- 文本对话指标: 如困惑度和多样性等指标。
- 人类反馈收集
- Rate system responses using buttons for:
- 自然度: 例如:"非常自然"、"略显生硬"。
- 相关性: 例如:"高度相关"、"略微不相关"。
- Optional integration with a remote HuggingFace dataset as a backend database, allowing researchers to store human relevance judgments and log user interaction data, including input recordings and system outputs such as ASR transcripts, text responses, and audio responses.
app.py中的upload_to_hub标志表示远程HuggingFace数据集的名称。如果设置为None,则禁用此功能。
如何使用
启动演示
- 在
spoken_chatbot_arena/sds1中运行run.sh以在本地运行。 - 您也可以选择访问我们在HuggingFace Spaces上的语音助手演示。
- 等待界面加载完成。
- 在
选择系统类型
- Cascaded System:
- 整合了独立的自动语音识别(ASR)、语言模型(LLM)和文本转语音(TTS)系统。
- E2E System:
- 一个集成模型,所有任务都由其统一处理。
- 在级联(Cascaded)和端到端(E2E)模型之间进行选择。
- Cascaded System:
配置组件
- For a Cascaded System, configure the following:
- ASR: 选择用于语音转文本的模型。
- LLM: 选择用于生成响应的语言模型。
- 文本转语音(TTS): 选择用于将文本响应转换为语音的模型。
- 对于端到端系统,选择集成模型
- For a Cascaded System, configure the following:
与系统交互
输入您的声音:
- 点击"麦克风"按钮开始说话。
- 系统将处理您的语音输入并提供合成语音响应。
查看输出:
- ASR输出: 显示语音的文本转录结果。
- LLM输出: 显示生成的文本响应。
- 音频输出: 播放系统合成的语音响应。
评估性能
- 从"选择评估指标"中选择一个评估指标来分析系统的特定方面:
- 结果将显示在"评估结果"框中。
提供反馈
- Use feedback buttons to rate the naturalness and relevance of the system's response.
- 自然度: 评估合成语音的质量。
- 相关性:评估系统响应与您输入的关联程度。
- Use feedback buttons to rate the naturalness and relevance of the system's response.
需求
浏览器兼容性
- 为获得最佳体验,请使用Google Chrome浏览器。
- Web界面可能与某些网页浏览器不兼容,例如Mozilla Firefox
互联网连接
- 访问演示需要稳定的互联网连接。
故障排除
在本地运行时,请按照以下建议进行调试:
- Gradio URL问题: 如果在Gradio公共URL上音频无法播放,请使用本地URL以获得更好的性能。
- Docker设置: 确保您环境中的软件包版本与requirements文件中的版本一致。
