机器学习可以快速海量地进行分析、拟合、预测,并具有很好的泛化能力,机器学习是一种归纳,而非演绎。该项技术被应用到量化投资中,通过大量数据习得模式,达到自主选股择时效果,我们在人工智能第一篇报告《人工智能系列报告综述篇:人工智能发展史及算法介绍》详细阐述了相关算法和应用案例,读者可参阅。
价量特征指标在实际交易中常被市场参与者用于市场择时,相比基本面指标,具有更好的时效性,当前业界研究多集中于单个指标有效性检验或者通过图形模式识别交易信号,将多个指标合成单一指标进行选股的相关研究较少,本文初衷是通过有效的数据挖掘方法,挖掘多个价量指标信息,获取比单一指标更好地预测效果。
在本文,我们运用34个价量特征进行决策树、支持向量机,随机森林、AdaBoost、GBDT、XGBoost等机器学习模型进行历史数据回测,并构建投资组合,所有模型均是36个月滚动训练调参。结果表明,随机森林与Boosting算法表现较好,决策树和支持向量机表现差强人意,分类预测效果不明显。随机森林算法和Boosting算法(AdaBoost、GBDT、XGBoost等),具有较好的分类预测效果,第10组年化收益13%-14%,夏普比率在0.42-0.44,多空组合年化收益率为7.11%-12.11%,夏普比率为0.78-0.9,其中随森林模型多头组合年化收益率最高,XGBoost模型多空组合收益率最高。 机器学习算法如何在量化投资中真正有效利用起来,仍值得我们思考。目前,业界多将机器学习算法与多因子体系结合,进行量化选股,这样形成一套体系,从因子有效性检验、模型训练、预测和组合构建,往往研究重点集中于模型参数优化与因子筛选上,参数优化,输入变量选取的不同或者预处理方法改变,都会对最终输出结果造成影响,这种体系下,机器学习应用于量化投资的可解释性有待提高,如何使机器学习更为透明和可解释,值得我们进一步研究。