快照格式中的常见数据集
你可能会发现从数据集中创建嵌入是一项非常耗费资源的任务。 如果你需要一个练习数据集,可以随意选择本页上的一个现成快照。 这些快照包含预先计算的向量,你可以轻松地将其导入到你的Qdrant实例中。
可用数据集
我们的快照通常是从公开可用的数据集中生成的,这些数据集通常用于非商业或学术目的。以下是当前可用的数据集。请点击数据集名称以查看其详细描述。
| 数据集 | 模型 | 向量大小 | 文档 | 大小 | Qdrant 快照 | HF Hub |
|---|---|---|---|---|---|---|
| Arxiv.org 标题 | InstructorXL | 768 | 2.3M | 7.1 GB | 下载 | 打开 |
| Arxiv.org 摘要 | InstructorXL | 768 | 2.3M | 8.4 GB | 下载 | 打开 |
| Wolt food | clip-ViT-B-32 | 512 | 1.7M | 7.9 GB | 下载 | 打开 |
一旦你下载了一个快照,你需要在启动时使用Qdrant CLI或通过API恢复它。
Hugging Face上的Qdrant
Hugging Face 提供了一个分享和使用机器学习模型及数据集的平台。Qdrant 是其中的一个组织!我们的目标是为你提供包含神经嵌入的数据集,你可以使用这些数据集来练习 Qdrant 并构建基于语义搜索的应用程序。如果你希望看到特定的数据集,请告诉我们!
如果您不熟悉Hugging Face数据集,或者想了解如何将其与Qdrant结合使用,请参考教程。
Arxiv.org
Arxiv.org 是一个备受推崇的多领域电子预印本开放获取库。由康奈尔大学运营,arXiv 允许研究人员在正式发表前与科学界分享他们的发现并获得反馈。其档案库中存有数百万篇学术文章,使其成为探索科学研究前沿的宝贵资源。由于每天都有来自世界各地科学家的高频率提交,arXiv 形成了一个全面且不断发展的数据集,非常适合进行挖掘、分析和未来创新的开发。
Arxiv.org 标题
该数据集仅包含从论文标题生成的嵌入。每个向量都有一个有效载荷,其中包含用于创建它的标题以及DOI(数字对象标识符)。
{
"title": "Nash Social Welfare for Indivisible Items under Separable, Piecewise-Linear Concave Utilities",
"DOI": "1612.05191"
}
使用InstructorXL模型生成的嵌入是使用以下指令生成的:
表示用于检索的研究论文标题;输入:
以下代码片段展示了如何使用InstructorXL模型生成嵌入:
from InstructorEmbedding import INSTRUCTOR
model = INSTRUCTOR("hkunlp/instructor-xl")
sentence = "3D ActionSLAM: wearable person tracking in multi-floor environments"
instruction = "Represent the Research Paper title for retrieval; Input:"
embeddings = model.encode([[instruction, sentence]])
数据集的快照可以在这里下载。
导入数据集
使用提供的数据集的最简单方法是通过API传递URL作为位置来恢复它。它也可以在Qdrant Cloud中工作。以下代码片段展示了如何创建一个新集合并用快照数据填充它:
PUT /collections/{collection_name}/snapshots/recover
{
"location": "https://snapshots.qdrant.io/arxiv_titles-3083016565637815127-2023-05-29-13-56-22.snapshot"
}
Arxiv.org 摘要
该数据集包含从论文摘要生成的嵌入。每个向量都有一个有效载荷,其中包含用于创建它的摘要以及DOI(数字对象标识符)。
{
"abstract": "Recently Cole and Gkatzelis gave the first constant factor approximation\nalgorithm for the problem of allocating indivisible items to agents, under\nadditive valuations, so as to maximize the Nash Social Welfare. We give\nconstant factor algorithms for a substantial generalization of their problem --\nto the case of separable, piecewise-linear concave utility functions. We give\ntwo such algorithms, the first using market equilibria and the second using the\ntheory of stable polynomials.\n In AGT, there is a paucity of methods for the design of mechanisms for the\nallocation of indivisible goods and the result of Cole and Gkatzelis seemed to\nbe taking a major step towards filling this gap. Our result can be seen as\nanother step in this direction.\n",
"DOI": "1612.05191"
}
使用InstructorXL模型生成的嵌入是使用以下指令生成的:
表示用于检索的研究论文摘要;输入:
以下代码片段展示了如何使用InstructorXL模型生成嵌入:
from InstructorEmbedding import INSTRUCTOR
model = INSTRUCTOR("hkunlp/instructor-xl")
sentence = "The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train."
instruction = "Represent the Research Paper abstract for retrieval; Input:"
embeddings = model.encode([[instruction, sentence]])
数据集的快照可以在这里下载。
导入数据集
使用提供的数据集的最简单方法是通过API传递URL作为位置来恢复它。它也可以在Qdrant Cloud中使用。以下代码片段展示了如何创建一个新集合并用快照数据填充它:
PUT /collections/{collection_name}/snapshots/recover
{
"location": "https://snapshots.qdrant.io/arxiv_abstracts-3083016565637815127-2023-06-02-07-26-29.snapshot"
}
Wolt 美食
我们的Food Discovery演示依赖于来自Wolt应用程序的食物图像数据集。集合中的每个点代表一道菜,配有一张图片。图片被表示为512个浮点数的向量。每个点还附加了一个JSON有效载荷,看起来类似于这样:
{
"cafe": {
"address": "VGX7+6R2 Vecchia Napoli, Valletta",
"categories": ["italian", "pasta", "pizza", "burgers", "mediterranean"],
"location": {"lat": 35.8980154, "lon": 14.5145106},
"menu_id": "610936a4ee8ea7a56f4a372a",
"name": "Vecchia Napoli Is-Suq Tal-Belt",
"rating": 9,
"slug": "vecchia-napoli-skyparks-suq-tal-belt"
},
"description": "Tomato sauce, mozzarella fior di latte, crispy guanciale, Pecorino Romano cheese and a hint of chilli",
"image": "https://wolt-menu-images-cdn.wolt.com/menu-images/610936a4ee8ea7a56f4a372a/005dfeb2-e734-11ec-b667-ced7a78a5abd_l_amatriciana_pizza_joel_gueller1.jpeg",
"name": "L'Amatriciana"
}
使用clip-ViT-B-32模型生成的嵌入已通过以下代码片段生成:
from PIL import Image
from sentence_transformers import SentenceTransformer
image_path = "5dbfd216-5cce-11eb-8122-de94874ad1c8_ns_takeaway_seelachs_ei_baguette.jpeg"
model = SentenceTransformer("clip-ViT-B-32")
embedding = model.encode(Image.open(image_path))
数据集的快照可以在这里下载。
导入数据集
使用提供的数据集的最简单方法是通过API传递URL作为位置来恢复它。它也可以在Qdrant Cloud中工作。以下代码片段展示了如何创建一个新集合并用快照数据填充它:
PUT /collections/{collection_name}/snapshots/recover
{
"location": "https://snapshots.qdrant.io/wolt-clip-ViT-B-32-2446808438011867-2023-12-14-15-55-26.snapshot"
}
