Lance:面向机器学习工作负载的现代列式存储格式¶
Lance是一种列式存储格式,易于版本控制、查询和训练,且速度快捷。 它专为处理图像、视频、3D点云、音频以及表格数据而设计。 支持所有POSIX文件系统,以及AWS S3和Google云存储等云存储服务。 Lance的主要特性包括:
高性能随机访问: 比Parquet快100倍。
零拷贝模式演进:无需复制整个数据集即可添加和删除列。
向量搜索: 在1毫秒内找到最近邻,并将OLAP查询与向量搜索相结合。
生态系统集成: Apache-Arrow、DuckDB 等更多集成即将推出。
安装¶
您可以通过pip安装Lance:
pip install pylance
如需获取最新功能和错误修复,您可以安装预览版本:
pip install --pre --extra-index-url https://pypi.fury.io/lancedb/ pylance
预览版发布与常规发布版本经过同等程度的测试。
简介
集成