当实证资产定价遇上机器学习<资产定价难学吗>

发表时间：2023-07-27 10:44:21

当实证资产定价遇上机器学习

文章目录 1 为什么是机器学习？2 方法总览2.1 用验证（Validation）进行样本划分和调参2.2 各种机器学习算法2.3 模型表现评价2.4 变量的重要性和边际关系 3 实证效果3.1 数据3.2 模型比较3.3 哪些变量重要？3.4 组合预测参考文献 2023年的 Review of Financial Studies刊出了一篇名为“ Empirical Asset Pricing via Machine Learning”的文章，作者中有两位是在Booth的华人顾诗颢、修大成，另一位则是在耶鲁和 AQR任职的 Bryan Kelly。

该文对使用机器学习做实证资产定价的经典问题（即测度资产的风险溢价）进行了可比较的分析，表明使用机器学习的投资者可获得巨大的经济收益，甚至可比现有文献中基于回归的策略表现高出一倍。该文确定出最佳的模型（树和神经网络），并追踪到它们预测的增量收益来自于预测因子的交互，这恰恰是其他方法所错失的部分。所有的方法找出的最佳预测信号集是一致的，其中包含了动量、流动性、波动性的相关变量。

将机器学习应用于金融市场，在业界早已不是什么新鲜事，在量化投资领域中更是一个老生常谈的问题，它的有效性和可靠性也一直存在不少争论。而在金融学术界，之前只有寥寥数篇文章涉及到一部分机器学习中的方法，常态化地使用机器学习则是在最近才出现的苗头。从学术角度来说，该文是比较有代表性的一篇，基本上把机器学习能玩的东西全都玩了一遍。

1 为什么是机器学习？

首先，是实证资产定价领域本身的特点，让人将它和机器学习进行联想：

现代实证资产定价研究有两个主题，一是描述和理解不同资产的期望收益率的差异，另一个是研究总体股权风险溢价的动态特性。而测度一项资产的风险溢价，本质上是一个预测问题——风险溢价就是未来实现的超额收益率的条件期望；对风险溢价来说，备选的变量集合非常大；高维预测因子进入风险溢价的函数形式是不确定的。

其次，机器学习本身的特点，又使得它适用于这种不确定函数形式的问题：

多样性。它有各种不同的算法，可以搜索很大的函数空间；它的各种算法可以对复杂的非线性关系进行近似；它有参数惩罚和模型选择标准，哪怕函数形式非常广泛，也可以避免过拟合偏差和错误发现。

正是上述种种特性，让人觉得将实证资产定价与机器学习相结合是一件很自然的事情。

2 方法总览

为避免过多的公式堆积，本节仅仅对该文所用的方法做个概述。

一项资产的超额收益可表述成一个加性的预测误差模型（additive prediction error model）：

r i , t + 1 = E t ( r i , t + 1 ) + ϵ i , t + 1 r_{i,t+1}=E_t(r_{i,t+1})+epsilon_{i,t+1} ri,t+1=Et(ri,t+1)+ϵi,t+1

其中

E t ( r i , t + 1 ) = g ⋆ ( z i , t ) E_t(r_{i,t+1})=g^star(z_{i,t}) Et(ri,t+1)=g⋆(zi,t)

也就是说，我们的目的是，分离出一个 E t ( r i , t + 1 ) E_t(r_{i,t+1}) Et(ri,t+1) 的表示形式，它是预测因子的函数，并对 r i , t + 1 r_{i,t+1} ri,t+1 有最大的样本外解释力。其中预测因子是高维的 z i , t z_{i,t} zi,t，函数形式可以是灵活的条件期望收益率函数 g ⋆ ( ⋅ ) g^star(cdot) g⋆(⋅)，在这里假设函数形式与 i i i 和 t t t 均无关。

2.1 用验证（Validation）进行样本划分和调参

该文将数据集划分成 3 个不相邻的时间区间：

训练集，用于训练数据；验证集，用于选择超参数；测试集，用于评估模型的预测表现。

对于

当实证资产定价遇上机器学习<资产定价难学吗>

85年前，椎心泣血的淞沪会战<日军轰炸上海视频播放>