Skip to content

标注大型数据集

Autodistill 尚未针对大型数据集的标记进行优化,但这项工作正在进行中。在此期间,我们建议每次仅标记几百张图像,以符合您可以存储在内存中的图像数量的最大限制。

Autodistill标注过程是如何工作的

在图像标注过程中,构建了一个包含以下内容的数据结构:

  1. 图像的numpy表示;
  2. 图像的标签,以及;
  3. 图像文件名。

如果您正在标记大型数据集,那么这个数据结构将变得很大。例如,如果您在一个文件夹中有10,000张图像需要标记,这个数据结构将包含10,000张图像。如果您的系统没有足够的内存来存储所有图像,这可能会导致内存问题。

我们正在开发一个系统,该系统将在标记过程中防止需要将图像存储在内存中。该系统还将包括一个智能标签恢复系统,因此如果由于任何原因标记停止,您将能够从停止的地方恢复标记。

关注 Issue #93 in the Autodistill GitHub repository