该文对使用机器学习做实证资产定价的经典问题(即测度资产的风险溢价)进行了可比较的分析,表明使用机器学习的投资者可获得巨大的经济收益,甚至可比现有文献中基于回归的策略表现高出一倍。该文确定出最佳的模型(树和神经网络),并追踪到它们预测的增量收益来自于预测因子的交互,这恰恰是其他方法所错失的部分。所有的方法找出的最佳预测信号集是一致的,其中包含了动量、流动性、波动性的相关变量。
将机器学习应用于金融市场,在业界早已不是什么新鲜事,在量化投资领域中更是一个老生常谈的问题,它的有效性和可靠性也一直存在不少争论。而在金融学术界,之前只有寥寥数篇文章涉及到一部分机器学习中的方法,常态化地使用机器学习则是在最近才出现的苗头。从学术角度来说,该文是比较有代表性的一篇,基本上把机器学习能玩的东西全都玩了一遍。
1 为什么是机器学习?首先,是实证资产定价领域本身的特点,让人将它和机器学习进行联想:
现代实证资产定价研究有两个主题,一是描述和理解不同资产的期望收益率的差异,另一个是研究总体股权风险溢价的动态特性。而测度一项资产的风险溢价,本质上是一个预测问题——风险溢价就是未来实现的超额收益率的条件期望;对风险溢价来说,备选的变量集合非常大;高维预测因子进入风险溢价的函数形式是不确定的。其次,机器学习本身的特点,又使得它适用于这种不确定函数形式的问题:
多样性。它有各种不同的算法,可以搜索很大的函数空间;它的各种算法可以对复杂的非线性关系进行近似;它有参数惩罚和模型选择标准,哪怕函数形式非常广泛,也可以避免过拟合偏差和错误发现。正是上述种种特性,让人觉得将实证资产定价与机器学习相结合是一件很自然的事情。
2 方法总览为避免过多的公式堆积,本节仅仅对该文所用的方法做个概述。
一项资产的超额收益可表述成一个加性的预测误差模型(additive prediction error model):
r i , t + 1 = E t ( r i , t + 1 ) + ϵ i , t + 1 r_{i,t+1}=E_t(r_{i,t+1})+epsilon_{i,t+1} ri,t+1=Et(ri,t+1)+ϵi,t+1
其中
E t ( r i , t + 1 ) = g ⋆ ( z i , t ) E_t(r_{i,t+1})=g^star(z_{i,t}) Et(ri,t+1)=g⋆(zi,t)
也就是说,我们的目的是,分离出一个 E t ( r i , t + 1 ) E_t(r_{i,t+1}) Et(ri,t+1) 的表示形式,它是预测因子的函数,并对 r i , t + 1 r_{i,t+1} ri,t+1 有最大的样本外解释力。其中预测因子是高维的 z i , t z_{i,t} zi,t,函数形式可以是灵活的条件期望收益率函数 g ⋆ ( ⋅ ) g^star(cdot) g⋆(⋅),在这里假设函数形式与 i i i 和 t t t 均无关。
2.1 用验证(Validation)进行样本划分和调参该文将数据集划分成 3 个不相邻的时间区间:
训练集,用于训练数据;验证集,用于选择超参数;测试集,用于评估模型的预测表现。对于