指南 3个标注团队操作手册:提升标注速度与质量

可视化排序器

该模板提供了一个工作流程,用于对文本到图像模型(如Dall-E、Midjourney、Stable Diffusion等)生成结果的质量进行排序。

使用此模板可以比较不同生成式AI模型的响应质量,并通过便捷的拖放界面动态排序项目集。

这对以下使用场景很有帮助:

  1. 按不同类型对回答进行分类:相关、不相关、有偏见、冒犯性等。
  2. 比较并排序不同模型生成响应的质量。
  3. 评估语义搜索结果
  4. 个性化与推荐系统,市场产品搜索

如何创建数据集

以以下形式收集提示词和每项任务中要显示的图片列表:


[{
  "prompt": "Generate a high-quality image of a stylish, ergonomic chair for a home office. ",
  "images": [
      {
          "id": "chair_1",
          "html": "<img src='/static/samples/chairs/chair1.png'/>"
      },
        {
          "id": "chair_2",
          "html": "<img src='/static/samples/chairs/chair2.png'/>"
      },
        {
          "id": "chair_3",
          "html": "<img src='/static/samples/chairs/chair3.png'/>"
      },
        {
          "id": "chair_4",
          "html": "<img src='/static/samples/chairs/chair4.png'/>"
      }
  ]
}, ...]

Each each contain "html" field where you can specify the path to the image you want to display. This is a generic HTML renderer, so you can use any HTML tags here.

收集数据集示例并将其存储在dataset.json文件中。

启动您的标注项目

需要帮助开始使用Label Studio?查看我们的从零到一教程

  1. 在Label Studio中创建一个新项目
  2. 前往 Settings > Labeling Interface > Browse Templates > Generative AI > LLM Ranker
  3. 保存项目

或者,您可以使用Python SDK创建项目:

import label_studio_sdk

ls = label_studio_sdk.Client('YOUR_LABEL_STUDIO_URL', 'YOUR_API_KEY')
project = ls.create_project(title='Visual Ranker', label_config='<View>...</View>')

导入数据集

要导入数据集,请在项目设置中进入Import并上传数据集文件dataset.json

使用Python SDK,您可以将带有输入提示的数据集导入Label Studio。使用您刚创建的项目的PROJECT_ID,运行以下代码:

from label_studio_sdk import Client

ls = Client(url='<YOUR-LABEL-STUDIO-URL>', api_key='<YOUR-API_KEY>')

project = ls.get_project(id=PROJECT_ID)
project.import_tasks('dataset.json')

设置标注界面

请为标注界面使用以下配置:

<View>
      <Style>
          <!-- Customize your CSS styles here -->
      </Style>

   <View className="product-panel">
      <Text name="prompt" value="$prompt"/>
    </View>
    <View>
      <List name="generated_images" value="$images" title="Generated Images" />
      <Ranker name="rank" toName="generated_images">
  </Ranker> 
    </View>
  </View>

包含以下元素:

  • 定义任务提示的文本
  • 用于显示待评估的生成图像列表
  • 为图像重新排序添加功能的组件

导出数据集

标注结果可以导出为JSON格式。要导出数据集,请前往项目设置中的Export并下载文件。

使用Python SDK,您可以从Label Studio导出带有标注的数据集。

annotations = project.export_tasks(format='JSON')

注释在"value"中的输出预期包含以下结构:

"value": {
    "ranker": {
      "rank": [
        "chair_2",
        "chair_4",
        "chair_3",
        "chair_1"
      ]
    }
}

列表中的项目是图像的“id”,按排名顺序排序