通过实践视频学习Kedro

如果您喜欢通过视频学习,可以跟随我们的YouTube上的实践课程《Kedro入门:构建可维护的数据管道》

本课程按章节划分,每个章节包含多个短视频,专门讲解Kedro相关主题。您将通过spaceflights教程进行实际操作练习。在学习过程中,您将掌握Kedro的核心概念,例如数据集与Kedro数据目录、节点与管道,以及配置管理等。

本课程适合谁?

本课程面向数据科学家、数据工程师和机器学习工程师。无论您是初级、中级还是资深从业者均可参与。您可能正在实际参与项目开发,或是经常需要为Python数据产品做出设计和实施决策的决策者。

我们假设您已了解以下概念:

  • Python基础(在Jupyter和其他笔记本界面上编码)

  • 使用pandas处理数据

  • 可视化洞察

  • 命令行基础

我们不假设学员具备Python软件工程知识,因此课程涵盖了可重用性原则、如何创建Python包以及如何使用版本控制等内容。

请注意,我们确实希望用户已安装Git,因为这是使用kedro new流程创建新项目时的先决条件。

你将学习的内容

简而言之,您将了解以下问题的答案:

  • Kedro简介

  • 什么是Kedro?它如何帮助您创建可维护、可复用的数据科学代码?

  • Kedro如何融入数据科学生态系统?

  • 创建一个Kedro项目需要做些什么?

  • 如何将Jupyter笔记本重构为Kedro项目?

  • 如何将Python代码打包成库?

  • 如何在VS Code中使用Kedro项目?

  • 什么是命名空间和数据集工厂?

  • 使用Docker等容器解决方案和Airflow等开源编排工具部署Kedro项目需要什么?

  • 什么是Kedro插件?

  • 如何为Kedro做贡献?

您无需注册课程,可以根据需要跳过各个部分,在掌握构建自己的Kedro项目所需技能时获取特定领域的帮助。

视频索引

Kedro入门:构建可维护的数据管道分为以下视频:

第0部分:简介

  1. 生产环境中的数据科学:优点、缺点与挑战

  2. 什么是Kedro?

  3. Kedro与数据编排工具

  4. Kedro如何融入数据科学生态系统?

第一部分:Kedro入门指南

  1. 从零开始创建一个Kedro项目?

  2. 太空飞行入门项目

  3. 在Jupyter笔记本中使用Kedro

  4. 设置Kedro数据目录

  5. 探索太空飞行数据

  6. 将数据处理代码重构为函数

  7. 使用Kedro创建你的第一个数据管道

  8. 将您的节点组装成Kedro流水线

  9. 运行你的Kedro流水线

  10. 使用Kedro-Viz可视化您的数据管道

第二部分:构建复杂的Kedro管道

  1. 在Kedro中合并不同数据框

  2. 使用机器学习预测价格

  3. 将你的数据科学代码重构为函数

  4. 如何在Kedro中使用参数

  5. 创建一个带参数的Kedro流水线

  6. 利用命名空间复用你的Kedro管道

  7. Kedro 管道运行器

  8. 使用工厂动态创建Kedro数据集

第三部分:将您的Kedro项目部署到生产环境

  1. 定义您自己的Kedro环境

  2. 在Kedro中使用S3和MinIO云存储

  3. 将您的Kedro项目打包成Python wheel

  4. 将您的Kedro项目转换为Docker容器

  5. 将您的Kedro项目部署到Apache Airflow

第四部分:下一步该做什么?

继续你的Kedro之旅