ESPnet-SDS

约2分钟

ESPnet-SDS

这是ESPnet-SDS配方的模板。ESPnet-SDS是一个开源工具包，用于为各种级联和端到端(E2E)语音对话系统构建统一的网页界面，支持实时自动评估指标和人在环反馈收集。本README描述了ESPnet-SDS工具包的功能，并为用户提供了关于导航演示界面的全面说明。

功能特性

即插即用对话系统

通过从可用选项中选择，尝试各种ASR、LLM和TTS系统。
Switch between:
- 级联系统: 独立的ASR、LLM和TTS组件。
- 端到端系统: 集成的处理流程。

实时评估指标

Evaluate system performance using:
- 延迟: 响应时间。
- TTS可懂度: 合成语音的可理解性。
- TTS语音质量: 合成语音的清晰度与质量。
- ASR WER: 用于衡量转录准确度的词错误率。
- 文本对话指标: 如困惑度和多样性等指标。

人类反馈收集

Rate system responses using buttons for:
- 自然度: 例如："非常自然"、"略显生硬"。
- 相关性: 例如："高度相关"、"略微不相关"。
Optional integration with a remote HuggingFace dataset as a backend database, allowing researchers to store human relevance judgments and log user interaction data, including input recordings and system outputs such as ASR transcripts, text responses, and audio responses.
- app.py中的upload_to_hub标志表示远程HuggingFace数据集的名称。如果设置为None，则禁用此功能。

如何使用

启动演示
- 在spoken_chatbot_arena/sds1中运行run.sh以在本地运行。
- 您也可以选择访问我们在HuggingFace Spaces上的语音助手演示。
- 等待界面加载完成。
选择系统类型
- Cascaded System:
  - 整合了独立的自动语音识别(ASR)、语言模型(LLM)和文本转语音(TTS)系统。
- E2E System:
  - 一个集成模型，所有任务都由其统一处理。
- 在级联(Cascaded)和端到端(E2E)模型之间进行选择。
配置组件
- For a Cascaded System, configure the following:
  - ASR: 选择用于语音转文本的模型。
  - LLM: 选择用于生成响应的语言模型。
  - 文本转语音(TTS): 选择用于将文本响应转换为语音的模型。
- 对于端到端系统，选择集成模型
与系统交互
- 输入您的声音：
  - 点击"麦克风"按钮开始说话。
  - 系统将处理您的语音输入并提供合成语音响应。
- 查看输出：
  - ASR输出: 显示语音的文本转录结果。
  - LLM输出: 显示生成的文本响应。
  - 音频输出： 播放系统合成的语音响应。
评估性能
- 从"选择评估指标"中选择一个评估指标来分析系统的特定方面：
- 结果将显示在"评估结果"框中。
提供反馈
- Use feedback buttons to rate the naturalness and relevance of the system's response.
  - 自然度： 评估合成语音的质量。
  - 相关性：评估系统响应与您输入的关联程度。

需求

浏览器兼容性

为获得最佳体验，请使用Google Chrome浏览器。
Web界面可能与某些网页浏览器不兼容，例如Mozilla Firefox

互联网连接

访问演示需要稳定的互联网连接。

故障排除

在本地运行时，请按照以下建议进行调试：

Gradio URL问题: 如果在Gradio公共URL上音频无法播放，请使用本地URL以获得更好的性能。
Docker设置: 确保您环境中的软件包版本与requirements文件中的版本一致。