量化交易中的强化学习
强化学习
与分类任务和回归任务等监督学习任务不同。机器学习中的另一个重要范式是强化学习(RL),它试图通过直接与环境交互来优化累积的数值奖励信号,这基于一些假设,如马尔可夫决策过程(MDP)。
如下图所示,一个RL系统由四个元素组成,1)代理 2)代理与之交互的环境 3)代理遵循的策略以对环境采取行动 4)从环境到代理的奖励信号。 一般来说,代理可以感知和解释其环境,采取行动并通过奖励学习,以寻求长期和最大的总体奖励,从而实现最优解决方案。
强化学习(RL)试图通过试错来学习产生动作。 通过采样动作然后观察哪一个动作导致我们期望的结果,可以获得一个策略来生成最优动作。 与监督学习不同,RL不是从标签中学习,而是从一个称为奖励的延迟标签中学习。 这个标量值让我们知道当前的结果是好还是坏。 简而言之,RL的目标是采取行动以最大化奖励。
Qlib 强化学习工具包(QlibRL)是一个用于量化投资的强化学习平台,它提供了在 Qlib 中实现强化学习算法的支持。
量化交易中的潜在应用场景
RL方法在各种应用中展示了显著的成就,包括游戏玩法、资源分配、推荐系统、市场营销和广告。 在涉及持续决策的投资背景下,让我们以股票市场为例。投资者通过有效的买卖行为管理其仓位和股票持有,努力优化其投资回报。 此外,投资者在每次买卖决策前都会仔细评估市场状况和股票特定信息。从投资者的角度来看,这一过程可以被视为由与市场的互动驱动的持续决策过程。RL算法为解决此类挑战提供了一种有前景的方法。 以下是RL在量化投资中具有应用潜力的几种场景。
订单执行
订单执行任务是在考虑多个因素的情况下高效执行订单,这些因素包括最优价格、最小化交易成本、减少市场影响、最大化订单完成率以及在指定时间范围内完成执行。RL可以通过将这些目标纳入奖励函数和动作选择过程来应用于此类任务。具体来说,RL代理与市场环境交互,从市场信息中观察状态,并决定下一步的执行。RL算法通过试错学习最优执行策略,旨在最大化预期的累积奖励,该奖励包含了期望的目标。
- General Setting
环境:环境代表订单执行所在的金融市场。它包括订单簿动态、流动性、价格变动和市场状况等变量。
状态:状态指的是在给定时间步骤中,RL代理可用的信息。它通常包括诸如当前订单簿状态(买卖价差、订单深度)、历史价格数据、历史交易量、市场波动性以及任何其他有助于决策的相关信息。
动作:动作是强化学习代理基于观察到的状态做出的决策。在订单执行中,动作可以包括选择订单大小、价格和执行时机。
奖励:奖励是一个标量信号,表示RL代理在环境中执行动作的表现。奖励函数旨在鼓励导致高效且成本效益高的订单执行的行动。它通常考虑多个目标,例如最大化价格优势、最小化交易成本(包括交易费用和滑点)、减少市场影响(订单对市场价格的影响)以及最大化订单完成率。
- Scenarios
单一资产订单执行:单一资产订单执行专注于执行特定资产(如股票或加密货币)的单一订单任务。主要目标是在考虑最大化价格优势、最小化交易成本、减少市场影响和实现高完成率等因素的同时,高效地执行订单。RL代理与市场环境互动,并决定该特定资产的订单大小、价格和执行时机。目标是学习单一资产的最优执行策略,在考虑该资产的特定动态和特性的同时,最大化预期的累积奖励。
多资产订单执行:多资产订单执行将订单执行任务扩展到涉及多种资产或证券。它通常涉及同时或依次执行跨不同资产的订单组合。与单一资产订单执行不同,重点不仅在于单个订单的执行,还在于管理组合内不同资产之间的相互作用和依赖关系。RL代理需要根据资产之间的相互依赖关系、现金约束、市场条件和交易成本,对组合中每个资产的订单大小、价格和时间做出决策。目标是学习一种最优执行策略,在考虑整体组合表现和目标的同时,平衡每个资产的执行效率。
设置和RL算法的选择取决于任务的具体要求、可用数据和期望的性能目标。
投资组合构建
- Portfolio construction is a process of selecting and allocating assets in an investment portfolio. RL provides a framework to optimize portfolio management decisions by learning from interactions with the market environment and maximizing long-term returns while considering risk management.
- General Setting
状态:状态代表市场和投资组合的当前信息。它通常包括历史价格和交易量、技术指标以及其他相关数据。
动作:动作对应于将资本分配到投资组合中不同资产的决策。它决定了每种资产的投资权重或比例。
奖励:奖励是评估投资组合表现的一个指标。它可以以多种方式定义,例如总回报、风险调整回报或其他目标,如最大化夏普比率或最小化回撤。
- Scenarios
股票市场:RL可用于构建股票投资组合,其中代理学会在不同股票之间分配资金。
加密货币市场:RL可以应用于构建加密货币的投资组合,其中代理学习做出分配决策。
外汇(Forex)市场:RL可用于构建货币对的投资组合,其中代理学会根据汇率数据、经济指标和其他因素在不同货币之间分配资金。
同样,基本设置和算法的选择取决于问题的具体要求和市场的特性。