介绍

PyTorch Tabular PyTorch Tabular

pypi Testing documentation status pre-commit.ci status PyPI - Downloads DOI contributions welcome

PyTorch Tabular 是一个旨在简化并推广深度学习技术应用于表格数据的强大库。由于能够处理结构化数据(如电子表格或数据库中的数据),表格深度学习在机器学习领域中获得了显著的重要性。然而,处理表格数据可能颇具挑战性,需要同时具备深度学习和数据预处理的专业知识。

这正是 PyTorch Tabular 的用武之地。基于 PyTorchPyTorch Lightningpandas 等巨人的肩膀,PyTorch Tabular 提供了 低阻力易用性,使其既适用于实际应用场景,也适用于研究项目。该库的核心原则围绕着 易于定制,允许用户根据特定需求调整模型和管道。此外,PyTorch Tabular 提供了 可扩展且高效的工具,使得在生产环境中部署模型变得更加容易。PyTorch 的底层优势使得设计深度学习架构既符合 Python 风格又直观,而 PyTorch Lightning 简化了训练过程。pandas 是处理表格数据的实际标准,PyTorch Tabular 利用其优势简化了表格数据的预处理。通过 PyTorch Tabular,数据科学家和研究人员可以专注于工作的核心方面,而库则处理底层复杂性,实现高效且有效的表格深度学习。

文档的组织灵感来源于 Diátaxis 文档系统。

Diátaxis 是一种思考和编写文档的方式。Diátaxis 识别了四种不同的需求和相应的四种文档形式——教程、操作指南、技术参考和解释。它将它们置于系统关系中,并建议文档应围绕这些需求结构进行组织。Diátaxis 解决了与文档内容(写什么)、风格(如何写)和架构(如何组织)相关的问题。它是一个思考文档的系统,也是一个编写文档的系统。——Diátaxis

Diátaxis 文档系统

受该系统的启发,文档分为五个部分:

  • 入门指南 - 快速介绍如何安装并开始使用 PyTorch Tabular。

  • 教程 - 简短且集中的练习,助你快速上手。

  • 操作指南 - 涵盖关键任务、实际操作和常见问题的分步指南。

  • 概念 - 对库中一些较大概念和复杂性的解释。

  • API 参考 - 库的技术细节:所有类和函数,以及它们的参数和返回类型。