分词器
tokenizers 辅助模块提供了一组将文本分割成标记的函数。
const n = tokenizers.count("hello world")选择您的分词器
默认情况下,tokenizers模块使用large分词器。您可以通过传递模型标识符来更改分词器。
const n = await tokenizers.count("hello world", { model: "gpt-4o-mini" })count
计算字符串中的标记数量。
const n = await tokenizers.count("hello world")truncate
截取字符串的一部分以适应token预算
const truncated = await tokenizers.truncate("hello world", 5)chunk
将文本分割成指定令牌大小的块。该块尝试根据文档类型寻找合适的分块边界。
const chunks = await tokenizers.chunk(env.files[0])for(const chunk of chunks) { ...}您可以配置分块大小、重叠部分以及添加行号。
const chunks = await tokenizers.chunk(env.files[0], { chunkSize: 128, chunkOverlap 10, lineNumbers: true})