Pandas与PyArrow
由于Lance构建在Apache Arrow之上,LanceDB与Python数据生态系统(包括Pandas和PyArrow)紧密集成。下面展示了一个典型工作流程中的步骤序列。
创建数据集
首先,我们需要连接到LanceDB数据库。
我们可以直接将Pandas的DataFrame加载到LanceDB中。
类似于pyarrow.write_dataset()方法,LanceDB的db.create_table()可以接受多种形式的数据。
如果你的数据集大小超过内存容量,可以使用Iterator[pyarrow.RecordBatch]来惰性加载数据创建表:
from typing import Iterable
import pyarrow as pa
def make_batches() -> Iterable[pa.RecordBatch]:
for i in range(5):
yield pa.RecordBatch.from_arrays(
[
pa.array([[3.1, 4.1], [5.9, 26.5]]),
pa.array(["foo", "bar"]),
pa.array([10.0, 20.0]),
],
["vector", "item", "price"],
)
schema = pa.schema(
[
pa.field("vector", pa.list_(pa.float32())),
pa.field("item", pa.utf8()),
pa.field("price", pa.float32()),
]
)
table = db.create_table("iterable_table", data=make_batches(), schema=schema)
from typing import Iterable
import pyarrow as pa
def make_batches() -> Iterable[pa.RecordBatch]:
for i in range(5):
yield pa.RecordBatch.from_arrays(
[
pa.array([[3.1, 4.1], [5.9, 26.5]]),
pa.array(["foo", "bar"]),
pa.array([10.0, 20.0]),
],
["vector", "item", "price"],
)
schema = pa.schema(
[
pa.field("vector", pa.list_(pa.float32())),
pa.field("item", pa.utf8()),
pa.field("price", pa.float32()),
]
)
await async_db.create_table(
"iterable_table_async", data=make_batches(), schema=schema
)
您可以在入门指南和API部分找到创建LanceDB数据集的详细说明。
向量搜索
我们现在可以通过LanceDB Python API执行相似性搜索。
如果有一个简单的过滤条件,直接向LanceDB的search方法提供where子句会更快。
对于更复杂的过滤或聚合操作,您可以在执行搜索后使用底层的DataFrame方法。
# Apply the filter via LanceDB
results = table.search([100, 100]).where("price < 15").to_pandas()
assert len(results) == 1
assert results["item"].iloc[0] == "foo"
# Apply the filter via Pandas
df = results = table.search([100, 100]).to_pandas()
results = df[df.price < 15]
assert len(results) == 1
assert results["item"].iloc[0] == "foo"
# Apply the filter via LanceDB
results = await (await async_tbl.search([100, 100])).where("price < 15").to_pandas()
assert len(results) == 1
assert results["item"].iloc[0] == "foo"
# Apply the filter via Pandas
df = results = await (await async_tbl.search([100, 100])).to_pandas()
results = df[df.price < 15]
assert len(results) == 1
assert results["item"].iloc[0] == "foo"