跳至内容

OpenAI 音频操作#

Use this operation to generate an audio, or transcribe or translate a recording in OpenAI. Refer to OpenAI for more information on the OpenAI node itself.

生成音频#

使用此操作从文本提示生成音频。

输入以下参数:

  • 连接凭证: 创建或选择一个现有的OpenAI凭证
  • 资源: 选择音频
  • 操作: 选择生成音频
  • Model: Select the model you want to use to generate the audio. Refer to TTS | OpenAI for more information.
    • TTS-1: 使用此选项以优化速度。
    • TTS-1-HD: 使用此选项可优化质量。
  • 文本输入: 输入要生成音频的文本内容。最大长度为4096个字符。
  • 语音: 选择生成音频时使用的声音。可在Text to speech guide | OpenAI中试听各语音的预览效果。

选项#

  • 响应格式: 选择音频响应的格式。可选MP3(默认)、OPUSAACFLACWAVPCM
  • 音频速度: 输入生成音频的播放速度,取值范围为0.254.0。默认为1
  • 输出字段: 默认为 data。输入要存放二进制文件数据的输出字段名称。

更多信息请参考Create speech | OpenAI文档。

转录录音#

使用此操作将音频转录为文本。OpenAI API限制音频文件大小为25 MB。OpenAI默认会使用whisper-1模型。

输入以下参数:

  • 连接凭证: 创建或选择一个现有的OpenAI凭证
  • 资源: 选择音频
  • 操作: 选择转录录音
  • 输入数据字段名称: 默认为 data。输入包含音频文件的二进制属性名称,支持的格式包括: .flac, .mp3, .mp4, .mpeg, .mpga, .m4a, .ogg, .wav, 或 .webm

选项#

  • 音频文件语言: 输入音频的语言,使用ISO-639-1标准。使用此选项可提高准确性和降低延迟。
  • 输出随机性(温度): 默认为 1.0。调整响应的随机程度。范围在 0.0(确定性)到 1.0(最大随机性)之间。建议调整此参数或输出随机性(Top P)中的一个,而非同时调整两者。开始时使用中等温度值(约0.7),然后根据观察到的输出进行调整。如果响应过于重复或刻板,则提高温度值;如果响应过于混乱或偏离主题,则降低温度值。

更多信息请参考Create transcription | OpenAI文档。

Translate a Recording#

Use this operation to translate audio into English. OpenAI API limits the size of the audio file to 25 MB. OpenAI will use the whisper-1 model by default.

输入以下参数:

  • 连接凭证: 创建或选择一个现有的OpenAI凭证
  • 资源: 选择音频
  • Operation: Select Translate a Recording.
  • 输入数据字段名称: 默认为 data。输入包含音频文件的二进制属性名称,支持的格式包括: .flac, .mp3, .mp4, .mpeg, .mpga, .m4a, .ogg, .wav, 或 .webm

选项#

  • 输出随机性(温度值): 默认值为1.0。用于调整响应的随机程度,取值范围在0.0(完全确定性)到1.0(最大随机性)之间。建议仅调整此参数或输出随机性(Top P)中的一个。初始可设为中等温度值(约0.7),然后根据输出效果进行调整。若响应过于重复或刻板,则提高温度值;若响应过于混乱或偏离主题,则降低温度值。

更多信息请参考Create transcription | OpenAI文档。

常见问题#

关于常见错误或问题及建议解决步骤,请参阅常见问题

优云智算