指南 3个标注团队操作手册:提升标注速度与质量

多页文档标注

多页文档标注功能允许您对包含多个页面的文档进行标注。通过将每个页面表示为图像,您可以将其导入到单个任务中,并在保持整个文档上下文的同时对每个页面进行标注。

如果您只需要对整个PDF文档进行分类,也可以使用PDF分类模板

前提条件

多页文档标注需要您首先将文档转换为单独的图像进行预处理。有多种工具可以实现这一功能,包括Adobe Acrobat中的内置选项。

为了提高性能,我们通过XHR下载图像并将其存储在本地浏览器存储中来实现预加载。为了确保此功能正常工作,您必须在存放图像的CDN/存储上设置CORS策略。具体来说,必须设置以下响应头:

Access-Control-Allow-Origin: https://app.humansignal.com
Access-Control-Allow-Methods: GET, OPTIONS
Access-Control-Allow-Headers: Content-Type

限制

出于性能考虑,我们建议每个项目的最大任务数限制在10万左右。

如果您正在创建包含多张图像的任务,可能需要为每个项目规划较小的任务限制。例如,一个包含100张图像的任务大致相当于100个任务(就性能考量而言)。

在进行多页面标注时,您会看到一个新的导航菜单:

Multi-page navigation

提示

  • 要跳转到特定页面,请点击中间页码并输入目标页数。
  • 您还可以使用以下快捷键进行导航:command + left/command + rightctrl + left/ctrl + right

标注配置

通过使用标签并设置valueList参数而非value参数,启用多页面标注功能。

<View>
  <RectangleLabels name="rectangles" toName="pdf" showInline="true">
    <Label value="Title" background="red"/>
    <Label value="Summary" background="blue"/>
    <Label value="Author" background="green"/>
    <Label value="Table" background="gold"/>
    <Label value="Citation" background="purple"/>
  </RectangleLabels>
  <Image valueList="$pages" name="pdf"/>
</View>

类似于valuevalueList参数接受一个变量。不同之处在于这种情况下您引用的是JSON中的数组。

例如,以下引用了下方示例输入数据中的pages

<Image valueList="$pages" name="pdf"/>

分类

本示例使用边界框标注。不过,您也可以修改模板来执行分类任务(使用Choices标签)。使用Choices标签时,请注意以下事项:

  • 您可以使用perItem="true"进行逐页分类。
  • 您也可以保留perItem="false"(默认值)以执行按文档分类。
  • perRegion="true" 在页面上绘制区域时受支持。

输入数据格式

以下示例将上传一个已预处理为5张图片的5页PDF文件。您可以在标注配置中使用valueList="$pages"来引用这些页面。

{
  "data": {
    "pages": [
      "https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0001.jpg",
      "https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0002.jpg",
      "https://htx-pub.s3.amazonaws.com/demo/images/demo_stock_purchase_agreement/0003.jpg"
    ]
  }
}

导出格式

导出标注时,item_index属性会返回区域所关联图像的索引值。索引从0开始计数,即第一张图像为0,第二张为1,依此类推:

[
  {
    "id": 859,
    "annotations": [
      {
        "id": 25569355,
        "result": [
          {
            "id": "tdS8Of63VJ",
            "type": "rectanglelabels",
            "value": {
              "x": 2.48868778280543,
              "y": 4.807692307692308,
              "width": 52.88461538461539,
              "height": 5.128205128205128,
              "rotation": 0,
              "rectanglelabels": [
                "Title"
              ]
            },
            "origin": "manual",
            "to_name": "pdf",
            "from_name": "choices",
            "item_index": 0,
            "image_rotation": 0,
            "original_width": 2550,
            "original_height": 3300
          },
          {
            "id": "RGGrHm95R7",
            "type": "rectanglelabels",
            "value": {
              "x": 30.693815987933636,
              "y": 12.179487179487179,
              "width": 58.4841628959276,
              "height": 1.2820512820512828,
              "rotation": 0,
              "rectanglelabels": [
                "Citation"
              ]
            },
            "origin": "manual",
            "to_name": "pdf",
            "from_name": "choices",
            "item_index": 1,
            "image_rotation": 0,
            "original_width": 2550,
            "original_height": 3300
          }
        ]
      }
    ]
  }
]