标注大型数据集
Autodistill 尚未针对大型数据集的标记进行优化,但这项工作正在进行中。在此期间,我们建议每次仅标记几百张图像,以符合您可以存储在内存中的图像数量的最大限制。
Autodistill标注过程是如何工作的¶
在图像标注过程中,构建了一个包含以下内容的数据结构:
- 图像的numpy表示;
- 图像的标签,以及;
- 图像文件名。
如果您正在标记大型数据集,那么这个数据结构将变得很大。例如,如果您在一个文件夹中有10,000张图像需要标记,这个数据结构将包含10,000张图像。如果您的系统没有足够的内存来存储所有图像,这可能会导致内存问题。
我们正在开发一个系统,该系统将在标记过程中防止需要将图像存储在内存中。该系统还将包括一个智能标签恢复系统,因此如果由于任何原因标记停止,您将能够从停止的地方恢复标记。