跳至内容

分词器

tokenizers 辅助模块提供了一组将文本分割成标记的函数。

const n = tokenizers.count("hello world")

选择您的分词器

默认情况下,tokenizers模块使用large分词器。您可以通过传递模型标识符来更改分词器。

const n = await tokenizers.count("hello world", { model: "gpt-4o-mini" })

count

计算字符串中的标记数量。

const n = await tokenizers.count("hello world")

truncate

截取字符串的一部分以适应token预算

const truncated = await tokenizers.truncate("hello world", 5)

chunk

将文本分割成指定令牌大小的块。该块尝试根据文档类型寻找合适的分块边界。

const chunks = await tokenizers.chunk(env.files[0])
for(const chunk of chunks) {
...
}

您可以配置分块大小、重叠部分以及添加行号。

const chunks = await tokenizers.chunk(env.files[0], {
chunkSize: 128,
chunkOverlap 10,
lineNumbers: true
})