常见问题解答

这是一份不断增长的技术常见问题集。Kedro官网上的产品FAQ阐述了Kedro如何满足数据科学家、数据工程师、机器学习工程师和产品负责人的典型使用场景与需求。

安装Kedro

  • 如何安装Kedro的开发版本

  • 如何查看已安装的Kedro版本? 要检查已安装的版本,请在终端窗口中输入kedro -V

  • 使用Kedro需要安装Git吗? 是的,使用Kedro时需要预先安装Git。这是kedro new流程的先决条件。如果未安装Git,可以使用以下替代方案:kedro new -s https://github.com/kedro-org/kedro-starters/archive/0.18.6.zip --directory=pandas-iris

Kedro文档

使用Notebooks

Kedro项目开发

配置

高级主题

节点与流水线

什么是数据工程规范?

Bruce PhilpGuilherme Braccialli 是分层数据工程规范背后的智囊,该规范作为数据管理模型。您可以在Medium上找到他们规范的深度解析博客文章。

请参考下表了解各层功能的高级指南

注意:数据层不必存在于项目本地data文件夹中,但我们建议您以类似的方式组织S3存储桶或其他数据存储。

data_engineering_convention

数据文件夹

描述

原始数据

管道的初始起点,包含不应被更改的源数据模型,它构成了您工作的单一事实来源。这些数据模型在大多数情况下通常是无类型的,例如csv格式,但具体情况会因案例而异

中级

可选的数据模型,用于为您的raw数据模型添加类型,例如将基于字符串的值转换为其当前的类型表示

主要

包含来自rawintermediate的经过清洗、转换和整理数据的领域特定数据模型,构成您输入到特征工程中的层

功能特性

针对分析特定数据模型,包含一组基于primary数据定义的特征,这些特征按分析领域分组并存储于公共维度下

模型输入

针对特定分析的数据模型,包含所有feature数据,这些数据基于一个共同维度,对于实时项目则基于分析运行日期,以确保您能跟踪特征随时间的历史变化

模型

存储的、序列化的预训练机器学习模型

模型输出

包含模型基于model input数据生成结果的分析专用数据模型

报告

报告数据模型用于整合一组primaryfeaturemodel inputmodel output数据,这些数据用于驱动仪表板和构建视图。它封装并消除了定义任何数据混合或连接的需求,提高了性能,并可在无需重新定义数据模型的情况下替换展示层。