元数据扩展

LlamaExtract 提供多项高级功能，可在提取数据的同时提供额外的元数据和洞察。这些扩展功能在用户界面中的 Advanced Settings 下可用，并在响应的 extraction_metadata 字段中返回模式级元数据。

引用

引用提供了每个提取字段的源信息，使您能够准确追溯每条数据在原始文档中的具体来源位置。

工作原理：对于您架构中的每个叶级字段，引用返回：

找到信息的页码
用于提取字段值的逐字文本

用法: 使用SDK中的ExtractConfig.cite_sources参数来启用此功能。

使用场景：

合规性与审计要求
事实核查与验证工作流
理解提取质量和准确性

限制：

仅适用于多模态和高级提取模式

推理

推理为提取的值提供解释，帮助您理解每个提取决策背后的逻辑。

工作原理: 对于模式中的每个顶级字段，推理过程返回：

基于所提供文本对提取值的简要说明
如果文本不包含足够的信息来提取字段，则显示错误消息

使用说明：使用SDK中的ExtractConfig.use_reasoning参数来启用此功能。

使用场景：

调试提取结果
理解模型决策过程
基于提取逻辑改进模式设计

限制：

仅适用于 BALANCED、MULTIMODAL 和 PREMIUM 提取模式

置信度分数 (测试版)

置信度分数提供了系统对提取值置信程度的量化指标，帮助您识别可能不可靠的提取结果。

工作原理: 此功能在提取元数据中添加三个与置信度相关的字段：

parsing_confidence: 置信度分数，表示从源文档中解析相关上下文的效果。仅适用于多模态提取模式。
extraction_confidence: 基于JSON模式字段的置信度分数，表示提取结果的相关性。
confidence: 结合了解析置信度和提取置信度的综合置信度分数。

用法: 使用 SDK 中的 ExtractConfig.confidence_scores 参数来启用置信度分数。

⚠️ 重要提示：分数未经校准。正确使用的关键理解：

相对尺度重要，而非绝对值: 置信度分数并未校准为现实世界的准确率百分比。0.6的分数并不意味着"60%准确"——它可能表示模型完全在产生幻觉。
用于比较而非设定阈值：关注分数间的相对差异而非绝对值。得分为0.9的字段比得分为0.6的字段更可靠，但这两个分数都不能直接等同于准确率。
较长文本字段得分较低: 摘要、描述和其他较长的文本字段通常平均置信度得分较低。这并不表示准确性较低——它反映了构建较长文本存在多种有效方式，使得模型自然对任何特定措辞的“置信度”降低。
阈值确定需根据具体用例而定: 用于触发人工审核的置信度分数阈值必须通过使用您的具体文档和用例进行测试来确定。适用于金融数据提取的阈值可能不适用于法律文件处理。
测试功能可能变更: 这是一个实验性功能。随着收集更多数据，我们可能会调整计算方法，包括在未来的版本中可能添加适当的校准。

限制：

目前有100页的大小限制
仅适用于多模态和高级提取模式

使用场景：

质量保证工作流程（含适当调整的阈值）
各字段提取可靠性的相对排名
识别可能需要人工审核的文件（在阈值验证之后）

性能考量

⚠️ 重要提示：引用来源和置信度评分将显著减慢提取处理时间。仅当额外元数据对您的使用场景至关重要时才启用这些功能。

配置与使用

有关如何通过 Python SDK 和 REST API 配置和使用这些扩展的完整示例，请参阅配置选项页面。

配置部分包含：

包含扩展设置的完整 Python SDK 示例
REST API curl 命令示例
包含所有可用选项的配置参考表

扩展功能快速参考：

from llama_cloud import ExtractConfig, ExtractMode

config = ExtractConfig(
    cite_sources=True,        # Enable citations
    use_reasoning=True,       # Enable reasoning
    confidence_scores=True,   # Enable confidence scores (MULTIMODAL/PREMIUM only)
    extraction_mode=ExtractMode.MULTIMODAL  # Required for confidence scores
)