本笔记本展示了如何从大型数据集中获取嵌入向量的示例。
1. 加载数据集
本示例使用的数据集是来自亚马逊的精细食品评论。该数据集包含截至2012年10月亚马逊用户留下的总计568,454条食品评论。为便于演示,我们将使用该数据集的一个子集,包含最近的1,000条评论。这些评论均为英文,且倾向于表达正面或负面评价。每条评论包含产品ID(ProductId)、用户ID(UserId)、评分(Score)、评论标题(Summary)和评论正文(Text)。
我们将把评论摘要和评论文本合并为一个统一的文本。模型会对这个合并后的文本进行编码,并输出一个单一的向量嵌入。