多页文档标注
多页文档标注功能允许您对包含多个页面的文档进行标注。通过将每个页面表示为图像,您可以将其导入到单个任务中,并在保持整个文档上下文的同时对每个页面进行标注。
如果您只需要对整个PDF文档进行分类,也可以使用PDF分类模板。
前提条件
多页文档标注需要您首先将文档转换为单独的图像进行预处理。有多种工具可以实现这一功能,包括Adobe Acrobat中的内置选项。
为了提高性能,我们通过XHR下载图像并将其存储在本地浏览器存储中来实现预加载。为了确保此功能正常工作,您必须在存放图像的CDN/存储上设置CORS策略。具体来说,必须设置以下响应头:
Access-Control-Allow-Origin: https://app.humansignal.com
Access-Control-Allow-Methods: GET, OPTIONS
Access-Control-Allow-Headers: Content-Type
限制
出于性能考虑,我们建议每个项目的最大任务数限制在10万左右。
如果您正在创建包含多张图像的任务,可能需要为每个项目规划较小的任务限制。例如,一个包含100张图像的任务大致相当于100个任务(就性能考量而言)。
页面导航
在进行多页面标注时,您会看到一个新的导航菜单:

提示
- 要跳转到特定页面,请点击中间页码并输入目标页数。
- 您还可以使用以下快捷键进行导航:
command + left/command + right或ctrl + left/ctrl + right。
标注配置
通过使用标签并设置valueList参数而非value参数,启用多页面标注功能。
<View>
<RectangleLabels name="rectangles" toName="pdf" showInline="true">
<Label value="Title" background="red"/>
<Label value="Summary" background="blue"/>
<Label value="Author" background="green"/>
<Label value="Table" background="gold"/>
<Label value="Citation" background="purple"/>
</RectangleLabels>
<Image valueList="$pages" name="pdf"/>
</View>
类似于value,valueList参数接受一个变量。不同之处在于这种情况下您引用的是JSON中的数组。
例如,以下引用了下方示例输入数据中的pages。
<Image valueList="$pages" name="pdf"/>
分类
本示例使用边界框标注。不过,您也可以修改模板来执行分类任务(使用Choices标签)。使用Choices标签时,请注意以下事项:
- 您可以使用
perItem="true"进行逐页分类。 - 您也可以保留
perItem="false"(默认值)以执行按文档分类。 perRegion="true"在页面上绘制区域时受支持。
输入数据格式
以下示例将上传一个已预处理为5张图片的5页PDF文件。您可以在标注配置中使用valueList="$pages"来引用这些页面。
{
"data": {
"pages": [
"https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0001.jpg",
"https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0002.jpg",
"https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0003.jpg"
]
}
}
导出格式
导出标注时,item_index属性会返回区域所关联图像的索引值。索引从0开始计数,即第一张图像为0,第二张为1,依此类推:
[
{
"id": 859,
"annotations": [
{
"id": 25569355,
"result": [
{
"id": "tdS8Of63VJ",
"type": "rectanglelabels",
"value": {
"x": 2.48868778280543,
"y": 4.807692307692308,
"width": 52.88461538461539,
"height": 5.128205128205128,
"rotation": 0,
"rectanglelabels": [
"Title"
]
},
"origin": "manual",
"to_name": "pdf",
"from_name": "choices",
"item_index": 0,
"image_rotation": 0,
"original_width": 2550,
"original_height": 3300
},
{
"id": "RGGrHm95R7",
"type": "rectanglelabels",
"value": {
"x": 30.693815987933636,
"y": 12.179487179487179,
"width": 58.4841628959276,
"height": 1.2820512820512828,
"rotation": 0,
"rectanglelabels": [
"Citation"
]
},
"origin": "manual",
"to_name": "pdf",
"from_name": "choices",
"item_index": 1,
"image_rotation": 0,
"original_width": 2550,
"original_height": 3300
}
]
}
]
}
]