常见问题解答¶
这是一份不断增长的技术常见问题集。Kedro官网上的产品FAQ阐述了Kedro如何满足数据科学家、数据工程师、机器学习工程师和产品负责人的典型使用场景与需求。
安装Kedro¶
如何查看已安装的Kedro版本? 要检查已安装的版本,请在终端窗口中输入
kedro -V。使用Kedro需要安装Git吗? 是的,使用Kedro时需要预先安装Git。这是
kedro new流程的先决条件。如果未安装Git,可以使用以下替代方案:kedro new -s https://github.com/kedro-org/kedro-starters/archive/0.18.6.zip --directory=pandas-iris
Kedro文档¶
使用Notebooks¶
Kedro项目开发¶
配置¶
高级主题¶
节点与流水线¶
什么是数据工程规范?¶
Bruce Philp 和 Guilherme Braccialli 是分层数据工程规范背后的智囊,该规范作为数据管理模型。您可以在Medium上找到他们规范的深度解析博客文章。
请参考下表了解各层功能的高级指南
注意:数据层不必存在于项目本地
data文件夹中,但我们建议您以类似的方式组织S3存储桶或其他数据存储。

数据文件夹 |
描述 |
|---|---|
原始数据 |
管道的初始起点,包含不应被更改的源数据模型,它构成了您工作的单一事实来源。这些数据模型在大多数情况下通常是无类型的,例如csv格式,但具体情况会因案例而异 |
中级 |
可选的数据模型,用于为您的 |
主要 |
包含来自 |
功能特性 |
针对分析特定数据模型,包含一组基于 |
模型输入 |
针对特定分析的数据模型,包含所有 |
模型 |
存储的、序列化的预训练机器学习模型 |
模型输出 |
包含模型基于 |
报告 |
报告数据模型用于整合一组 |