跳至内容

使用音频模型

GPUStack支持同时运行语音转文本和文本转语音模型。语音转文本模型可将多种语言的音频输入转换为书面文本,而文本转语音模型则能将书面文本转化为自然且富有表现力的语音。

在本指南中,我们将引导您完成在GPUStack中部署和使用语音转文本及文本转语音模型的过程。

先决条件

在开始之前,请确保您已具备以下条件:

  • 支持AMD64架构的Linux系统或macOS系统。
  • 访问Hugging Face以下载模型文件。
  • gpustack已安装并正在运行。如果没有,请参考快速入门指南

运行语音转文本模型

步骤1:部署语音转文字模型

按照以下步骤从Hugging Face部署模型:

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮。
  3. 在下拉菜单中,选择 Hugging Face 作为您的模型来源。
  4. 使用左上角的搜索栏搜索模型名称 Systran/faster-whisper-medium
  5. 保留所有默认设置,点击Save按钮部署模型。

Deploy Model

部署完成后,您可以在Models页面监控模型状态。

Model List

步骤2:与语音转文本模型交互

  1. 在GPUStack用户界面中导航至Playground > Audio页面。
  2. 选择Speech to Text选项卡。
  3. 从右上角的下拉菜单中选择已部署的模型。
  4. 点击Upload按钮上传音频文件,或点击Microphone按钮录制音频。
  5. 点击Generate Text Content按钮生成文本内容。

Generated

运行文本转语音模型

步骤1:部署文本转语音模型

按照以下步骤从Hugging Face部署模型:

  1. 在GPUStack UI中导航至Models页面。
  2. 点击Deploy Model按钮。
  3. 在下拉菜单中,选择 Hugging Face 作为您的模型来源。
  4. 使用左上角的搜索栏搜索模型名称 FunAudioLLM/CosyVoice-300M
  5. 保留所有默认设置,点击Save按钮部署模型。

Deploy Model

部署完成后,您可以在Models页面监控模型状态。

Model List

步骤2:与文本转语音模型交互

  1. 在GPUStack用户界面中导航至Playground > Audio页面。
  2. 选择Text to Speech选项卡。
  3. 从右上角的下拉菜单中选择已部署的模型。然后,配置语音和输出音频格式。
  4. 输入要生成的文本。
  5. 点击Submit按钮生成文本。

Generated