快速入门
Classify 功能允许您使用自然语言规则自动将文档分类为您定义的类型(例如:发票、收据、合同)。
Classify 目前处于测试阶段,可能会发生破坏性变更。
- Use as a pre-processing step
- 提取前: 先进行分类,然后使用不同的 LlamaExtract 智能体运行特定模式的提取(例如发票与合同),以提高准确性并降低成本。
- 解析前处理: 先进行分类,然后对已标记文件运行LlamaParse,针对每个分类类别使用精细调整的解析设置,以提高准确性并降低成本。
- 索引前处理: 先进行分类,然后将分类后的文件发送至相应的LlamaCloud索引中,采用定制化的分块、元数据和访问控制策略,以提升检索质量。
- 后台文档的接收路由: 自动将发票、收据、采购订单和银行对账单分流至正确的队列、存储桶或审批流程。
- 数据集整理: 自动将大型档案库标记为有意义的类别,为模型训练创建带标签的子集。
-
规则: 基于内容的文档类型标准。每个规则包含:
typetype: 要分配的标签。只能包含字母数字字符、空格、连字符和下划线。例如:“invoice”(发票)、“sec_filing”(证券申报)、“Tax Return”(纳税申报表)、“10-K”(10-K报表)。descriptiondescription: 描述应匹配此类型内容的自然语言说明。
-
解析配置(可选):控制在分类前如何解析文档(例如语言、页面限制)。有助于在速度/准确性之间进行权衡。
-
结果: 对于每个文件,您将获得一个
type(预测值)、confidence(0.0–1.0)和reasoning(逐步说明)。
-
将您的文件上传至LlamaCloud
-
为您的目标类别创建规则
-
使用文件ID和规则创建一个分类任务
-
获取结果并使用预测
- 确保您拥有一个API密钥:获取API密钥
- 直接跳转到SDK指南运行你的第一个任务:Python SDK
- 如需在其他语言中使用,请参阅我们的API参考文档