分词器
tokenizers
辅助模块提供了一组将文本分割成标记的函数。
const n = tokenizers.count("hello world")
选择您的分词器
默认情况下,tokenizers
模块使用large
分词器。您可以通过传递模型标识符来更改分词器。
const n = await tokenizers.count("hello world", { model: "gpt-4o-mini" })
count
计算字符串中的标记数量。
const n = await tokenizers.count("hello world")
truncate
截取字符串的一部分以适应token预算
const truncated = await tokenizers.truncate("hello world", 5)
chunk
将文本分割成指定令牌大小的块。该块尝试根据文档类型寻找合适的分块边界。
const chunks = await tokenizers.chunk(env.files[0])for(const chunk of chunks) { ...}
您可以配置分块大小、重叠部分以及添加行号。
const chunks = await tokenizers.chunk(env.files[0], { chunkSize: 128, chunkOverlap 10, lineNumbers: true})