布局提取

LlamaParse 支持布局提取。如果您希望通过将内容放回原始位置来还原文档的原始外观，这会非常有用。

如果您在API上设置extract_layout=True并请求JSON输出，它将包含以下类型的边界框：

表格
图表
标题
文本
列表

布局数据在JSON数据中返回，作为附加到每个页面的layout属性。

每个布局条目包含：

一个 bbox，表示为页面宽度和高度的分数（一个介于0和1之间的数字）
一个与元素图像对应的 image 名称。这可以像其他图像一样通过图像API 获取。
一个 confidence 分数（范围从0到1，1表示良好）
一个 label 指示元素类型
isLikelyNoise，如果我们的NMS检测到该元素可能是噪声，则设置为true。

忽略用于布局检测的文档元素

默认情况下，布局提取会与我们从文档中提取元素的基础边界框对齐。如果这导致问题，可以通过设置 ignore_document_elements_for_layout_detection=true 来停用此对齐功能。

示例

{
    "bbox": {
    "x": 0.176,
    "y": 0.497,
    "w": 0.651,
    "h": 0.112
    },
    "image": "page_1_text_1.jpg",
    "confidence": 0.996,
    "label": "text",
    "isLikelyNoise": false
},

成本

每页的布局提取消耗1个额外积分。