跳至内容

音频转录

GenAIScript支持来自OpenAI等API的转录和翻译功能。

const { text } = await transcribe("video.mp4")

配置

转录API将自动使用ffmpeg将视频转换为音频文件(ogg容器中的opus编解码器)。

您需要在系统上安装ffmpeg。如果设置了FFMPEG_PATH环境变量, GenAIScript会将其作为ffmpeg可执行文件的完整路径使用。 否则,它将尝试直接调用ffmpeg (因此ffmpeg应该位于您的PATH环境变量中)。

model

默认情况下,API使用transcription model alias来转录音频。 您也可以通过model选项指定不同的模型别名。

const { text } = await transcribe("...", { model: "openai:whisper-1" })

片段

对于支持该功能的模型,您可以检索各个片段。

const { segments } = await transcribe("...")
for (const segment of segments) {
const { start, text } = segment
console.log(`[${start}] ${text}`)
}

SRT与VTT字幕格式

GenAIScript 将片段渲染为 SRTWebVTT 格式。

const { srt, vtt } = await transcribe("...")

翻译

某些模型还支持一次性完成转录并翻译为英文。对于这种情况,请设置translate: true标志。

const { srt } = await transcribe("...", { translate: true })

缓存

您可以通过将cache选项设置为true(或自定义名称)来缓存转录结果。

const { srt } = await transcribe("...", { cache: true })

或自定义盐值

const { srt } = await transcribe("...", { cache: "whisper" })

VTT, SRT 解析器

您可以使用parsers.transcription函数来解析VTT和SRT文件。

const segments = parsers.transcription("WEBVTT...")