使用音频模型
GPUStack支持同时运行语音转文本和文本转语音模型。语音转文本模型可将多种语言的音频输入转换为书面文本,而文本转语音模型则能将书面文本转化为自然且富有表现力的语音。
在本指南中,我们将引导您完成在GPUStack中部署和使用语音转文本及文本转语音模型的过程。
先决条件
在开始之前,请确保您已具备以下条件:
- 支持AMD64架构的Linux系统或macOS系统。
- 访问Hugging Face以下载模型文件。
- gpustack已安装并正在运行。如果没有,请参考快速入门指南。
运行语音转文本模型
步骤1:部署语音转文字模型
按照以下步骤从Hugging Face部署模型:
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮。 - 在下拉菜单中,选择
Hugging Face
作为您的模型来源。 - 使用左上角的搜索栏搜索模型名称
Systran/faster-whisper-medium
。 - 保留所有默认设置,点击
Save
按钮部署模型。
部署完成后,您可以在Models
页面监控模型状态。
步骤2:与语音转文本模型交互
- 在GPUStack用户界面中导航至
Playground
>Audio
页面。 - 选择
Speech to Text
选项卡。 - 从右上角的下拉菜单中选择已部署的模型。
- 点击
Upload
按钮上传音频文件,或点击Microphone
按钮录制音频。 - 点击
Generate Text Content
按钮生成文本内容。
运行文本转语音模型
步骤1:部署文本转语音模型
按照以下步骤从Hugging Face部署模型:
- 在GPUStack UI中导航至
Models
页面。 - 点击
Deploy Model
按钮。 - 在下拉菜单中,选择
Hugging Face
作为您的模型来源。 - 使用左上角的搜索栏搜索模型名称
FunAudioLLM/CosyVoice-300M
。 - 保留所有默认设置,点击
Save
按钮部署模型。
部署完成后,您可以在Models
页面监控模型状态。
步骤2:与文本转语音模型交互
- 在GPUStack用户界面中导航至
Playground
>Audio
页面。 - 选择
Text to Speech
选项卡。 - 从右上角的下拉菜单中选择已部署的模型。然后,配置语音和输出音频格式。
- 输入要生成的文本。
- 点击
Submit
按钮生成文本。