文本分块
文本分块
文本文件可以很短(社交媒体帖子或评论)或很长(一本书)。
由于较长的文本文档按顺序涵盖了许多不同的主题(有时带有参考文献),因此希望将它们结构化为语义连贯且专注于一个主题的较小部分。
将文档分割成更小部分的过程称为分块。
有许多不同的分块策略,如下所列。
- 分割:将文档分割成大小相等的部分(按字符或标记计数),可以选择重叠(典型大小为250-500个标记,重叠50-100个标记)
- 分层文档分块:根据词汇边界(如章节、段落)拆分文档
- 句子分块:将文档分割成单独的句子
- 语义分块:将文档分割成句子,生成嵌入向量,并在嵌入向量距离超过某个阈值的边界处进行分割