You're not viewing the latest version. 点击此处查看最新版本。

GPUStack

使用音频模型

正在初始化搜索

GPUStack

概述
快速入门
Installation
Installation
- 安装要求
- NVIDIA CUDA
  NVIDIA CUDA
  - 在线安装
  - 隔离式安装
- AMD ROCm
  AMD ROCm
  - 在线安装
  - 隔离式安装
- Apple Metal
- Ascend CANN
  Ascend CANN
  - 在线安装
  - 隔离式安装
- Hygon DTK
  Hygon DTK
  - 在线安装
  - 隔离式安装
- Moore Threads MUSA
  Moore Threads MUSA
  - 在线安装
  - 隔离式安装
- CPU
  CPU
  - 在线安装
  - 隔离式安装
- 安装脚本
- 卸载
升级
User Guide
User Guide
- 游乐场
  Playground
  - 聊天
  - 镜像
  - 音频
  - 嵌入
  - 重新排序
- 模型管理
- 模型目录
- 模型文件管理
- API密钥管理
- 用户管理
- 推理后端
- 固定的后端版本
- 兼容性检查
- OpenAI兼容API
- 图像生成API
- 重排序API
Using Models
Using Models
Tutorials
Tutorials
Integrations
Integrations
架构
调度器
故障排除
常见问题
API参考文档
CLI Reference
CLI Reference
- 开始
- 聊天
- 绘图
- 下载工具

Table of contents

先决条件
运行语音转文本模型
- 第一步：部署语音转文本模型
- 第二步：与语音转文本模型交互
运行文本转语音模型
- 第一步：部署文本转语音模型
- 第二步：与文本转语音模型交互

使用音频模型

GPUStack支持同时运行语音转文本和文本转语音模型。语音转文本模型可将多种语言的音频输入转换为书面文本，而文本转语音模型则能将书面文本转化为自然且富有表现力的语音。

在本指南中，我们将引导您完成在GPUStack中部署和使用语音转文本及文本转语音模型的过程。

先决条件

在开始之前，请确保您已具备以下条件：

支持AMD64架构的Linux系统或macOS系统。
访问Hugging Face以下载模型文件。
gpustack已安装并正在运行。如果没有，请参考快速入门指南。

运行语音转文本模型

步骤1：部署语音转文字模型

按照以下步骤从Hugging Face部署模型：

在GPUStack UI中导航至Models页面。
点击Deploy Model按钮。
在下拉菜单中，选择 Hugging Face 作为您的模型来源。
使用左上角的搜索栏搜索模型名称 Systran/faster-whisper-medium。
保留所有默认设置，点击Save按钮部署模型。

部署完成后，您可以在Models页面监控模型状态。

步骤2：与语音转文本模型交互

在GPUStack用户界面中导航至Playground > Audio页面。
选择Speech to Text选项卡。
从右上角的下拉菜单中选择已部署的模型。
点击Upload按钮上传音频文件，或点击Microphone按钮录制音频。
点击Generate Text Content按钮生成文本内容。

运行文本转语音模型

步骤1：部署文本转语音模型

按照以下步骤从Hugging Face部署模型：

在GPUStack UI中导航至Models页面。
点击Deploy Model按钮。
在下拉菜单中，选择 Hugging Face 作为您的模型来源。
使用左上角的搜索栏搜索模型名称 FunAudioLLM/CosyVoice-300M。
保留所有默认设置，点击Save按钮部署模型。

部署完成后，您可以在Models页面监控模型状态。

步骤2：与文本转语音模型交互

在GPUStack用户界面中导航至Playground > Audio页面。
选择Text to Speech选项卡。
从右上角的下拉菜单中选择已部署的模型。然后，配置语音和输出音频格式。
输入要生成的文本。
点击Submit按钮生成文本。