本篇报告中,我们介绍了Bandit Learning 算法,并将其应用于多因子模型。Bandit Learning 算法是在线学习算法的一种,通常被应用于处理一个时间序列的决策问题,在每一期的选择时,根据目前已知的信息实时反馈更新算法。以平衡守成(exploitation)与探索(exploration)的比例,达到最后总体收益的最大化。
在建立投资模型时,我们针对沪深300 成分股,选取估值、盈利、成长、动量、反转、波动率、流动性、市值八大类因子建立多因子模型。使用传统多因子模型估计投资组合的未来收益,使用Barra 模型估计投资组合的协方差矩阵,并将其应用于Bandit Learning 算法中。选用夏普比率作为奖赏函数,在迭代中,使用UCB 算法,计算最优臂与最优权重。最后,我们将选股结果与传统多因子模型、等权模型和指数做了对比,并对选股结果做了业绩归因。
在回测中,我们发现,Bandit Learning 算法在分年度的表现统计中表现出了一定的优越性。与传统多因子模型暴涨暴跌的特点不同,BanditLearning 模型在指数下跌的年份也能取得较为稳健的收益。在两类模型的业绩归因研究中,我们发现,多因子模型选股风格表现出了很强的趋势性,Bandit Learning 模型选股风格则比较跳跃。这可能也是在趋势性市场中,多因子模型表现明显优于Bandit Learning 模型,而在震荡市中,Bandit Learning 模型表现优于多因子模型的原因。
Bandit Learning 模型是一个较新的模型,其运行机制、收益来源以及成果的延续能力依然有一定的不确定性。不过,2017 年以来,市场环境的剧变,使传统多因子模型面临巨大挑战。在改进传统多因子模型,使其更加适应市场的需求下,Bandit Learning 模型是一个可以被考虑的替代选项。
风险提示:随着市场环境变化,模型存在失效风险。