创建新的Kedro项目

有多种方式可以创建新的Kedro项目。本页介绍使用kedro new命令创建基础项目的流程,该命令会输出包含构成Kedro项目的基本文件和子目录的项目文件夹。请注意,用户需要预先安装Git,因为这是kedro new流程的必要条件。

你也可以使用一个起始模板来创建新的Kedro项目,该模板会为常见项目用例添加代码。起始模板有单独说明,且太空飞行教程展示了它们的使用方法。

介绍 kedro new

要创建一个包含设置自定义节点和流水线所需默认代码的基础Kedro项目,请导航至您首选的目录并输入:

kedro new

项目名称

命令行界面(CLI)首先会要求输入项目名称。这是人类可读的名称,可以包含字母数字符号、空格、下划线和连字符。长度必须至少为两个字符。

最好保持名称简单,因为这个选择会被设置为project_name的值,并用于自动生成项目的文件夹和包名称。例如,如果输入"Get Started",项目的文件夹(repo_name)会自动设置为get-started,而项目的Python包名(python_package)会被设置为get_started

描述

设置

示例

新项目的人类可读名称

project_name

开始 使用

存储项目的本地目录

repo_name

get-started

项目的Python包名称(简短,全小写)

python_package

get_started

项目工具

接下来,CLI会询问您希望在项目中包含哪些工具:

Tools
1) Lint: Basic linting with ruff
2) Test: Basic testing with pytest
3) Log: Additional, environment-specific logging options
4) Docs: A Sphinx documentation setup
5) Data Folder: A folder structure for data management
6) PySpark: Configuration for working with PySpark
7) Kedro-Viz: Kedro's native visualisation tool

Which tools would you like to include in your project? [1-7/1,3/all/none]:
 (none):

这些选项在关于新项目工具的文档中有更详细的描述。

按编号选择工具,或输入all选择全部,或遵循默认设置添加none

项目示例

CLI提供了在项目中包含入门示例代码的选项:

Would you like to include an example pipeline? :
 (no):

如果你选择yes,包含的示例代码将取决于你之前选择的工具,如下所示:

每个入门示例都经过精心设计,以展示所选工具的功能和集成方式,为您提供如何在项目中实际运用它们的实用见解。

快速入门示例

  1. 要创建一个名为My-Project的默认Kedro项目(不包含工具和示例代码):

kedro new ⮐
My-Project ⮐
none ⮐
no ⮐

你也可以像下面这样在一行中输入:

kedro new --name=My-Project --tools=none --example=n
  1. 要创建一个名为spaceflights的项目,包含Kedro Viz功能和示例代码:

kedro new ⮐
spaceflights ⮐
7 ⮐
yes ⮐

你也可以像下面这样在一行中输入:

kedro new --name=spaceflights --tools=viz --example=y
  1. 要创建一个名为testproject的项目,包含代码检查、文档和PySpark功能,但不包含示例代码:

kedro new ⮐
testproject ⮐
1,4,6 ⮐
no ⮐

你也可以像下面这样在一行中输入:

kedro new --name=testproject --tools=lint,docs,pyspark --example=n

运行新项目

无论你选择了哪些工具和示例代码选项,一旦kedro new命令执行完成,下一步就是进入项目文件夹(cd )并使用pip安装依赖项,操作如下:

pip install -r requirements.txt

现在运行项目:

kedro run

警告

kedro run 需要至少包含一个带节点的管道。请在运行此命令前定义管道,并确保它已在 pipeline_registry.py 中注册。

可视化Kedro项目

本节快速介绍如何使用Kedro-Viz进行项目可视化。更多详情请参阅Kedro-Viz文档

Kedro-Viz 包需要单独安装到您的虚拟环境中,因为它不属于标准 Kedro 安装的一部分:

pip install kedro-viz

要启动Kedro-Viz,请导航至项目文件夹(cd )并在终端中输入以下命令:

kedro viz run

该命令会自动打开浏览器标签页,在http://127.0.0.1:4141/地址提供可视化服务。

要退出可视化界面,请关闭浏览器标签页。要重新获得终端控制权,在Mac上输入^+c或在Windows/Linux机器上输入Ctrl+c

下一步去哪里?

您已完成面向新用户的Kedro项目创建章节。以下是一些有用的学习资源:

  • 深入了解Kedro:以下页面解释了Kedro的核心概念

  • 动手学习:如果您更喜欢通过实践学习,请继续学习spaceflights教程。该教程演示了如何设置一个可运行的项目、添加依赖项、创建节点、注册管道、设置数据目录、添加文档以及打包项目。

  • 面向笔记本用户的操作指南:教程之后的文档部分详细介绍了如何将Kedro与Jupyter笔记本结合使用

如果您已经查阅了列出的文档但仍不确定下一步该怎么做,可以查看Kedro在GitHub上的代码库以及Kedro的Slack频道

工具选择的通用流程图

以下流程图可帮助指导您选择合适的工具和示例:

mermaid-General overview diagram for setting up a new Kedro project with tools