欢迎来到DI-engine的文档!¶ 中文文档 用户指南 介绍 什么是DI-engine? 关键概念 快速开始 安装指南 Hello World for DI 第一个强化学习程序 更多强化学习程序(自定义环境) RL 算法分类 基于模型的强化学习 模仿学习 强化学习中的探索机制 多智能体强化学习 离线强化学习 安全强化学习 分布式强化学习 零和游戏 系统设计 Middleware 分布式 配置文件系统 Agent 最佳实践 如何将您自己的环境迁移到DI-engine 如何自定义神经网络模型 如何使用Env Wrapper轻松构建环境 Buffer 用户指南 如何为模仿学习/离线训练构建数据管道 随机种子 加载预训练模型并恢复训练 在DI-engine中使用DDP分布式训练 API Doc ding.agent ding.config ding.envs ding.model ding.policy ding.rl_utils ding.torch_utils ding.utils Framework 数据 Learner Collector Replay Buffer 奖励模型 League FAQ 常见问题解答 强化学习教程 强化学习简介 基本概念 从DI-zoo学习 什么是DI-zoo DI-zoo的结构 如何使用DI-zoo DI-zoo的定制 DI-zoo支持的算法和环境列表 RL算法速查表 DQN C51 QRDQN Rainbow IQN FQF SQL SQN MDQN Averaged-DQN A2C PPO ACER IMPALA PPG DDPG D4PG TD3 SAC RND HER ICM DQfD SQIL GAIL TREX R2D3 CQL TD3BC EDAC DT (决策变换器) QGPO Diffuser (计划扩散器) R2D2 GTrXL QMIX COMA WQMIX QTRAN CollaQ ATOC MBPO VPN PLR RL 环境示例 Atari MuJoCo CartPole Pendulum BitFlip LunarLander BipedalWalker MiniGrid Slime Volleyball Procgen SMAC D4RL (MuJoCo) Google Research Football (Gfootball) Overcooked Bsuite PettingZoo dmc2gym Sokoban Gym-Super-Mario-Bros gym hybrid Evogym Metadrive Taxi 开发者规范 Specification 中间件规范 事件命名约定 DI-engine 配置规范 代码风格指南 基本代码风格规则 yapf flake8 合理的导入顺序 单元测试指南 单元测试的重要性 单元测试类型 如何构建单元测试 如何运行单元测试 图表和可视化 PlantUML graphviz draw.io snakeviz Github Cooperation Git 使用指南 Github 使用