OpenAI的音频转录API有一个可选参数叫做prompt。
该提示旨在帮助拼接多个音频片段。通过提示提交前一个片段的转录文本,Whisper模型可以利用该上下文更好地理解语音并保持一致的书写风格。
然而,提示词并不需要是之前音频片段的真实转录文本。可以提交虚构的提示词来引导模型使用特定的拼写或风格。
本笔记本分享了两种使用虚构提示来引导模型输出的技巧:
- 文本生成: GPT可以将指令转换为虚构的文本记录供Whisper模仿。
- 拼写指南: 拼写指南可以告诉模型如何拼写人名、产品名称、公司名称等。
这些技术并非特别可靠,但在某些情况下可能很有用。
与GPT提示的对比
提示Whisper与提示GPT不同。例如,如果您提交类似"将列表格式化为Markdown格式"的尝试性指令,模型不会遵从,因为它遵循提示的样式,而不是其中包含的任何指令。
此外,提示词长度限制为仅224个标记。如果提示词超过224个标记,则只会考虑提示词的最后224个标记;之前的所有标记将被静默忽略。使用的分词器是多语言Whisper分词器。
为了获得良好的效果,请精心设计示例以展现您期望的风格。