本笔记本将引导您完成一个简单流程:下载一些数据,进行嵌入处理,然后使用选定的向量数据库进行索引和搜索。对于希望在安全环境中存储和搜索我们的嵌入数据以支持生产用例(如聊天机器人、主题建模等)的客户来说,这是一个常见需求。
什么是向量数据库
向量数据库是一种专为存储、管理和搜索嵌入向量而设计的数据库。近年来,由于AI在解决涉及自然语言、图像识别和其他非结构化数据用例方面的效果日益显著,使用嵌入技术将非结构化数据(文本、音频、视频等)编码为向量供机器学习模型使用的做法呈现爆发式增长。向量数据库已成为企业实现和扩展这些用例的有效解决方案。
为什么使用向量数据库
向量数据库使企业能够利用本代码库中分享的众多嵌入应用场景(例如问答系统、聊天机器人和推荐服务),并在安全、可扩展的环境中实现这些应用。许多客户在小规模场景下已通过嵌入技术解决问题,但性能和安全性阻碍了其投入生产环境——我们认为向量数据库是解决这一问题的关键组件。本指南将带您了解文本数据嵌入的基础知识,将其存储于向量数据库,并用于语义搜索。
演示流程
演示流程如下:
- 设置: 导入包并设置任何需要的变量
- 加载数据: 加载数据集并使用OpenAI嵌入进行编码
- Redis
- 设置: 配置Redis-Py客户端。更多详情请点击此处
- 索引数据: 为所有可用字段创建搜索索引,支持向量搜索和混合搜索(向量+全文搜索)。
- 搜索数据: 带着不同目标运行几个示例查询。
完成本笔记本的学习后,您应该对如何设置和使用向量数据库有了基本理解,可以继续探索利用我们嵌入功能的更复杂用例。