最新消息

DeepSpeed 通过一键操作赋能类似 ChatGPT 的模型训练,提供比最先进的 RLHF 系统快 15 倍的速度,并在所有规模上实现前所未有的成本降低;了解如何.

More news

深度学习的训练和推理的极速与规模

DeepSpeed 支持世界上最强大的语言模型,如 MT-530BBLOOM。它是一个易于使用的深度学习优化软件套件,为训练和推理提供了前所未有的规模和速度。使用 DeepSpeed,您可以:

  • 训练/推理具有数十亿或数万亿参数的密集或稀疏模型
  • 实现卓越的系统吞吐量,并高效扩展到数千个GPU
  • 在资源受限的GPU系统上进行训练/推理
  • 实现前所未有的低延迟和高吞吐量进行推理
  • 实现极致的压缩,以无与伦比的推理延迟和模型大小减少,同时降低成本

DeepSpeed 有四大创新支柱:

Four innovation pillars

DeepSpeed-训练

DeepSpeed 提供了一系列系统创新,这些创新使得大规模深度学习训练变得有效且高效,极大地提高了易用性,并在可能的规模方面重新定义了深度学习训练的格局。这些创新,如 ZeRO、3D-Parallelism、DeepSpeed-MoE、ZeRO-Infinity 等,都属于 DeepSpeed-Training 支柱。了解更多:DeepSpeed-Training

DeepSpeed推理

DeepSpeed 汇集了张量、管道、专家和 ZeRO 并行等并行技术的创新,并将其与高性能定制推理内核、通信优化和异构内存技术相结合,以实现前所未有的推理规模,同时实现无与伦比的延迟、吞吐量和成本降低。这种系统技术的系统组合属于 DeepSpeed-Inference。了解更多:DeepSpeed-Inference

DeepSpeed-压缩

为了进一步提高推理效率,DeepSpeed 提供了易于使用且灵活组合的压缩技术,供研究人员和实践者压缩他们的模型,同时提供更快的速度、更小的模型大小和显著降低的压缩成本。此外,DeepSpeed-Compression 支柱下还包括了 ZeroQuant 和 XTC 等压缩方面的最先进创新。了解更多:DeepSpeed-Compression

深度速度科学

与微软解决人类最紧迫挑战的使命一致,微软的DeepSpeed团队正在通过启动一项名为DeepSpeed4Science的新计划来响应这一机会,旨在通过AI系统技术创新构建独特能力,帮助领域专家解锁当今最大的科学谜团。了解更多:DeepSpeed4Science网站教程

DeepSpeed 软件套件

DeepSpeed 库

DeepSpeed 库将 DeepSpeed 训练、推理和压缩支柱中的创新和技术实现并打包成一个易于使用的开源存储库。它允许在单个训练、推理或压缩管道中轻松组合多种功能。DeepSpeed 库被深度学习社区广泛采用,并已被用于启用一些最强大的模型(参见 DeepSpeed Adoption)。

用于推理的模型实现 (MII)

Model Implementations for Inference (MII) 是一个开源库,旨在通过减轻数据科学家自行应用复杂系统优化技术的需求,使所有人都能进行低延迟和高吞吐量的推理。开箱即用,MII 支持数千种广泛使用的深度学习模型,这些模型使用 DeepSpeed-Inference 进行优化,只需几行代码即可部署,同时与它们的原始开源版本相比,显著减少了延迟。

Azure上的DeepSpeed

DeepSpeed 用户多样,且拥有不同的环境。我们建议在 Azure 上尝试 DeepSpeed,因为这是最简单和最容易的方法。在 Azure 上尝试 DeepSpeed 的推荐方法是通过 AzureML recipes。作业提交和数据准备脚本已在此处提供 here。有关如何在 Azure 上使用 DeepSpeed 的更多详细信息,请遵循 Azure 教程

DeepSpeed 采用

DeepSpeed 已被用于训练许多不同的大规模模型。以下是我们所知的几个示例列表(如果您想包含您的模型,请提交一个PR):

DeepSpeed 已经与多个不同的流行开源深度学习框架集成,例如:

  文档
Transformers with DeepSpeed
使用DeepSpeed加速
Lightning with DeepSpeed
MosaicML with DeepSpeed

DeepSpeed 是 Microsoft 的 AI at Scale 计划 的重要组成部分,旨在实现大规模的下一代 AI 能力。

贡献

DeepSpeed 欢迎您的贡献!请参阅我们的 贡献指南,了解更多关于格式、测试等详细信息。

贡献者许可协议

本项目欢迎贡献和建议。大多数贡献要求您同意贡献者许可协议(CLA),声明您有权并且确实授予我们使用您的贡献的权利。详情请访问 https://cla.opensource.microsoft.com。

当你提交一个拉取请求时,CLA机器人会自动判断你是否需要提供CLA并适当地装饰PR(例如,状态检查、评论)。只需按照机器人提供的指示操作即可。你只需要在使用我们的CLA的所有仓库中执行一次此操作。

行为准则

本项目已采用Microsoft 开源行为准则。欲了解更多信息,请参阅行为准则常见问题解答或通过opencode@microsoft.com联系,提出任何额外的问题或意见。

出版物

  1. Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He. (2019) ZeRO: 内存优化以训练万亿参数模型。 arXiv:1910.02054在国际高性能计算、网络、存储和分析会议论文集 (SC ‘20) 中
  2. Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, 和 Yuxiong He. (2020) DeepSpeed: 系统优化使得训练超过1000亿参数的深度学习模型成为可能。在第26届ACM SIGKDD国际知识发现与数据挖掘会议(KDD '20, 教程)中
  3. 张敏佳, 何宇雄. (2020) 通过渐进式层丢弃加速基于Transformer的语言模型训练. arXiv:2010.13369NeurIPS 2020.
  4. Jie Ren, Samyam Rajbhandari, Reza Yazdani Aminabadi, Olatunji Ruwase, Shuangyan Yang, Minjia Zhang, Dong Li, Yuxiong He. (2021) ZeRO-Offload: 民主化十亿级模型训练。 arXiv:2101.06840USENIX ATC 2021[论文] [幻灯片] [博客]
  5. Hanlin Tang, Shaoduo Gan, Ammar Ahmad Awan, Samyam Rajbhandari, Conglong Li, Xiangru Lian, Ji Liu, Ce Zhang, Yuxiong He. (2021) 1-bit Adam: 具有Adam收敛速度的通信高效大规模训练. arXiv:2102.02888ICML 2021.
  6. Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He. (2021) ZeRO-Infinity: 打破GPU内存墙以实现极端规模的深度学习。 arXiv:2104.07857SC 2021[论文] [幻灯片] [博客]
  7. Conglong Li, Ammar Ahmad Awan, Hanlin Tang, Samyam Rajbhandari, Yuxiong He. (2021) 1-bit LAMB: 使用LAMB的收敛速度进行通信高效的大规模大批量训练。 arXiv:2104.06069HiPC 2022.
  8. Conglong Li, Minjia Zhang, Yuxiong He. (2021) 稳定性与效率的困境:研究序列长度预热在训练GPT模型中的应用。arXiv:2108.06084NeurIPS 2022.
  9. Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He. (2022) 通过0/1 Adam最大化大规模训练的通信效率。 arXiv:2202.06009.
  10. Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He. (2022) DeepSpeed-MoE: 推进专家混合推理和训练以推动下一代人工智能规模 arXiv:2201.05596ICML 2022. [pdf] [slides] [blog]
  11. Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro. (2022) 使用DeepSpeed和Megatron训练Megatron-Turing NLG 530B,一个大规模生成语言模型 arXiv:2201.11990.
  12. 吴晓霞, 姚哲伟, 张敏佳, 李聪龙, 何宇雄. (2022) 极简高效的预训练Transformer压缩方法. arXiv:2206.01859NeurIPS 2022.
  13. Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He. (2022) ZeroQuant: 大规模Transformer的高效且经济的训练后量化。 arXiv:2206.01861NeurIPS 2022 [幻灯片] [博客]
  14. Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He. (2022) DeepSpeed推理:在空前规模上实现Transformer模型的高效推理。arXiv:2207.00032SC 2022[论文] [幻灯片] [博客]
  15. Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang, Cheng Li, Yuxiong He. (2022) Random-LTD: 随机和分层令牌丢弃为大规模Transformers带来高效训练。 arXiv:2211.11586.
  16. Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He. (2022) DeepSpeed 数据效率:通过高效的数据采样和路由提高深度学习模型质量和训练效率。 arXiv:2212.03597 ENLSP2023 Workshop at NeurIPS2023
  17. 吴晓霞, 李成, Reza Yazdani Aminabadi, 姚哲伟, 何宇雄. (2023) 理解Transformer模型的INT4量化:延迟加速、可组合性及失败案例. arXiv:2301.12017ICML2023.
  18. Syed Zawad, Cheng Li, Zhewei Yao, Elton Zheng, Yuxiong He, Feng Yan. (2023) DySR: 通过算法与系统协同设计的自适应超分辨率。 ICLR:2023.
  19. Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He. (2023) 使用稀疏专家混合扩展视觉语言模型。 arXiv:2303.07226Finding at EMNLP2023.
  20. Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda. (2023) MCR-DL: 深度学习的混合通信运行时 arXiv:2303.08374 并将出现在 IPDPS 2023 上。
  21. Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele. (2023) 一种混合张量-专家-数据并行方法优化专家混合训练 arXiv:2303.06318 并将出现在 ICS 2023 上。
  22. Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Xiaoxia Wu, Connor Holmes, Zhewei Yao, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He. (2023) ZeRO++: 巨型模型训练的极其高效的集体通信 arXiv:2306.10209NeurIPS2023 的系统机器学习研讨会 [博客]
  23. Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He. (2023) ZeroQuant-V2: 从综合研究到低秩补偿探索LLMs中的训练后量化 arXiv:2303.08302ENLSP2023 Workshop at NeurIPS2023 [slides]
  24. Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He. (2023) 选择性指导:引导扩散的所有去噪步骤都重要吗? arXiv:2305.09847
  25. Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He. (2023) DeepSpeed-Chat: 轻松、快速且经济实惠的RLHF训练,适用于所有规模的ChatGPT类模型 arXiv:2308.01320.
  26. 吴晓霞, 姚哲伟, 何宇雄. (2023) ZeroQuant-FP: 使用浮点格式在LLMs训练后W4A8量化中的一大步 arXiv:2307.09782ENLSP2023 Workshop at NeurIPS2023 [幻灯片]
  27. Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. (2023) DeepSpeed-VisualChat: 通过多模态因果注意力实现的多轮多图像交错聊天 arXiv:2309.14327
  28. Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, 等. (2023) DeepSpeed4Science 计划:通过复杂的AI系统技术实现大规模科学发现 arXiv:2310.04610 [博客]
  29. Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He. (2023) ZeroQuant-HERO: 硬件增强的鲁棒优化后训练量化框架,适用于W8A8 Transformer arXiv:2310.17723
  30. Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Reza Yazdani Aminadabi, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He. (2024) System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models
  31. Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko, Masahiro Tanaka, Stas Bekman, Olatunji Ruwase, Minjia Zhang. (2024) 通用检查点:大规模分布式训练的高效灵活检查点 arXiv:2406.18820

视频

  1. DeepSpeed KDD 2020 教程
    1. 概述
    2. ZeRO + 大型模型训练
    3. 17B T-NLG 演示
    4. 最快的 BERT 训练 + RScan 调优
    5. DeepSpeed 深入实践:第1部分, 第2部分, 第3部分
    6. 常见问题解答
  2. 微软研究院网络研讨会
  3. DeepSpeed on AzureML
  4. 使用DeepSpeed进行大规模模型训练和推理 // Samyam Rajbhandari // 生产中的LLMs会议 [幻灯片]
  5. 社区教程