管理标签

Lance与Git类似,使用LanceDataset.tags属性来标记数据集历史中的特定版本。

Tags 在追踪数据集演变过程中特别有用,尤其是在机器学习工作流中数据集频繁更新的场景。例如,您可以createupdatedeletelist标签。

注意

创建或删除标签不会生成新的数据集版本。 标签作为辅助元数据存储在单独的目录中。

>>> import lance
>>> ds = lance.dataset("./tags.lance")
>>> len(ds.versions())
2
>>> ds.tags.list()
{}
>>> ds.tags.create("v1-prod", 1)
>>> ds.tags.list()
{'v1-prod': {'version': 1, ...}}
>>> ds.tags.update("v1-prod", 2)
>>> ds.tags.list()
{'v1-prod': {'version': 2, ...}}
>>> ds.tags.delete("v1-prod")
>>> ds.tags.list()
{}

注意

标记版本不受LanceDataset.cleanup_old_versions()清理过程的影响。

要删除已标记的版本,您必须先LanceDataset.tags.delete()关联的标记。