模型建立方法:
本篇报告中,我们分别使用机器学习中的随机森林算法与传统的线性回归方法,针对沪深300成分股、中证500成分股与全体A股构建多因子选股模型,比较二者的历史表现。同时针对两类模型选出的股票池,运用业绩归因方法来探寻两个模型在选股上的风格异同,通过对比组合的因子暴露和因子收益来确定两种选股结果的主要收益来源。
随机森林多因子模型构建方法:每个月月末截面期,选取下个月收益排名前30%的股票作为正例,后30%的股票作为负例。将当前月份前12个月的样本合并形成训练集。使用训练集训练随机森林模型,预测下一月个股涨跌概率,选取上涨概率最高的50支股票组成股票池。
传统多因子模型构建构建方法:采用估值、盈利、成长、动量、反转、波动率、流动性、市值八大类因子建立线性回归模型,采用12个月的移动平均方法预测因子未来收益。
回测结果总结:
在各个样本池中,随机森林模型的表现相比于传统多因子模型均有一定程度的提升,尤其是在相比业绩基准的月度胜率上的提升十分显著。这说明随机森林模型相比传统多因子模型具有更强的灵活性,可以更快的把握市场风格的转变。
在业绩归因模型中,传统多因子模型在大部分因子暴露上的波动率均明显大于随机森林模型。这说明在不加限制的情况下,传统多因子模型的选股风格可能会更加极端化。
通过对于不同样本范围内选股结果的分析,可以发现,股票池中的小市值股票越多(全A>中证500>沪深300),模型选股结果的因子波动性越大,同时在市值因子的暴露也逐步上升。对市值因子的依赖是多因子模型一直面临的问题,在实际应用中,我们推荐对于市值因子做一定的风险敞口控制,以防止因子失效带来的大幅回撤风险。
风险提示:
随着市场环境变化,模型存在失效风险。