模仿学习¶
问题定义和研究动机¶
模仿学习(IL)通常指的是一大类学习方法,其中代理从专家数据中提取知识,然后模仿这些专家数据中包含的行为。由于IL的固有特性,它有两个主要特点:通常需要大量的训练数据,并且通常要求训练数据的质量足够好。一般来说,IL可以分为三个方向:IRL(逆向强化学习)、BC(行为克隆)、对抗结构化IL,下面我们简要分析该领域的每个研究方向。
研究方向¶
行为克隆 (BC)¶
BC 最初在 [1] 中被提出,它提出了一种监督学习方法,通过拟合专家数据直接建立状态-动作映射关系。
BC的最大优点是简单高效,但一旦代理遇到一些从未见过的状态,它可能会犯致命的错误——这个问题被称为“状态分布漂移”。为了解决这个问题,DAgger [2] 提出了一种动态更新数据集的方法:收集当前正在训练的策略遇到的真实状态-动作对,并将这些新的专家数据添加到数据集中,以便后续的策略更新。在最近的一项研究中,IBC [3] 提出了隐式动作克隆,其关键在于神经网络同时接受观察和动作,并输出一个能量值,该值对于专家动作较低,对于非专家动作较高,从而将行为克隆转化为基于能量的建模问题。
当前BC算法的研究热点主要集中在两个方面:元学习和使用VR设备的行为克隆。
逆向强化学习 (IRL)¶
逆强化学习(IRL)是根据代理的策略或观察到的行为推断其奖励函数的问题。具体来说,IRL首先从专家数据中学习奖励函数,然后将此奖励函数用于后续的强化学习训练。理论上,IRL可以超越专家数据。
从上述具体工作来看,Ziebart等人[4]首次提出了最大熵IRL,利用最大熵分布更好地表征多模态行为,以实现更高效的优化。2016年,Finn等人[5]提出了一种基于模型的IRL方法,称为引导成本学习,能够学习任意非线性成本函数,如神经网络,而无需精细的特征工程,并为MaxEnt IOC制定了一种高效的基于样本的近似方法。随后,Hester等人提出了DQfD[6],该方法仅需少量专家数据,并通过预训练和专门设计的损失函数显著加速了训练过程。T-REX[7]提出了一种新颖的从观察中学习奖励的算法,该算法从一组(近似)排序的演示中推断出高质量的奖励函数,即使这些演示可能质量不高。
对抗性结构化IL¶
Adversarial Structured IL 方法的主要目标是提高 IRL 的效率。即使 IRL 算法学习到了一个非常好的奖励函数,为了获得最终的接近最优的策略,它仍然需要执行一个强化学习步骤。如果可以直接从专家数据中学习策略,效率将大大提高。基于这一想法,GAIL [8] 结合了生成网络(GAN)和最大熵 IRL,以在没有人工标注的专家数据的情况下学习近似最优策略。
在此基础上,许多工作对GAIL进行了相关改进。例如,InfoGail [9] 用WGAN替换了GAN,并取得了更好的性能。还有一些最近的工作,如GoalGAIL [10]、TRGAIL [11] 和 DGAIL [12],它们结合了其他方法,如事后重新标记和DDPG,以实现更快的收敛和更好的最终性能。
未来研究¶
模仿学习仍然面临许多挑战,主要包括以下几点:
一般来说,它是针对特定任务的,并且缺乏可以应用于多个任务的模仿学习方法;
在数据不理想的情况下,很难超越数据以达到最佳结果;
主要专注于观察研究,未结合语音和自然语言等多模态因素;
可以找到局部最优解,但通常无法找到全局最优解。