知方号

知方号

当实证资产定价遇上机器学习<资产定价难学吗>

当实证资产定价遇上机器学习

文章目录 1 为什么是机器学习?2 方法总览2.1 用验证(Validation)进行样本划分和调参2.2 各种机器学习算法2.3 模型表现评价2.4 变量的重要性和边际关系 3 实证效果3.1 数据3.2 模型比较3.3 哪些变量重要?3.4 组合预测 参考文献 2023年的 Review of Financial Studies刊出了一篇名为“ Empirical Asset Pricing via Machine Learning”的文章,作者中有两位是在Booth的华人顾诗颢、修大成,另一位则是在耶鲁和 AQR任职的 Bryan Kelly。

该文对使用机器学习做实证资产定价的经典问题(即测度资产的风险溢价)进行了可比较的分析,表明使用机器学习的投资者可获得巨大的经济收益,甚至可比现有文献中基于回归的策略表现高出一倍。该文确定出最佳的模型(树和神经网络),并追踪到它们预测的增量收益来自于预测因子的交互,这恰恰是其他方法所错失的部分。所有的方法找出的最佳预测信号集是一致的,其中包含了动量、流动性、波动性的相关变量。

将机器学习应用于金融市场,在业界早已不是什么新鲜事,在量化投资领域中更是一个老生常谈的问题,它的有效性和可靠性也一直存在不少争论。而在金融学术界,之前只有寥寥数篇文章涉及到一部分机器学习中的方法,常态化地使用机器学习则是在最近才出现的苗头。从学术角度来说,该文是比较有代表性的一篇,基本上把机器学习能玩的东西全都玩了一遍。

1 为什么是机器学习?

首先,是实证资产定价领域本身的特点,让人将它和机器学习进行联想:

现代实证资产定价研究有两个主题,一是描述和理解不同资产的期望收益率的差异,另一个是研究总体股权风险溢价的动态特性。而测度一项资产的风险溢价,本质上是一个预测问题——风险溢价就是未来实现的超额收益率的条件期望;对风险溢价来说,备选的变量集合非常大;高维预测因子进入风险溢价的函数形式是不确定的。

其次,机器学习本身的特点,又使得它适用于这种不确定函数形式的问题:

多样性。它有各种不同的算法,可以搜索很大的函数空间;它的各种算法可以对复杂的非线性关系进行近似;它有参数惩罚和模型选择标准,哪怕函数形式非常广泛,也可以避免过拟合偏差和错误发现。

正是上述种种特性,让人觉得将实证资产定价与机器学习相结合是一件很自然的事情。

2 方法总览

为避免过多的公式堆积,本节仅仅对该文所用的方法做个概述。

一项资产的超额收益可表述成一个加性的预测误差模型(additive prediction error model):

r i , t + 1 = E t ( r i , t + 1 ) + ϵ i , t + 1 r_{i,t+1}=E_t(r_{i,t+1})+epsilon_{i,t+1} ri,t+1​=Et​(ri,t+1​)+ϵi,t+1​

其中

E t ( r i , t + 1 ) = g ⋆ ( z i , t ) E_t(r_{i,t+1})=g^star(z_{i,t}) Et​(ri,t+1​)=g⋆(zi,t​)

也就是说,我们的目的是,分离出一个 E t ( r i , t + 1 ) E_t(r_{i,t+1}) Et​(ri,t+1​) 的表示形式,它是预测因子的函数,并对 r i , t + 1 r_{i,t+1} ri,t+1​ 有最大的样本外解释力。其中预测因子是高维的 z i , t z_{i,t} zi,t​,函数形式可以是灵活的条件期望收益率函数 g ⋆ ( ⋅ ) g^star(cdot) g⋆(⋅),在这里假设函数形式与 i i i 和 t t t 均无关。

2.1 用验证(Validation)进行样本划分和调参

该文将数据集划分成 3 个不相邻的时间区间:

训练集,用于训练数据;验证集,用于选择超参数;测试集,用于评估模型的预测表现。

对于

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。

上一篇 没有了

下一篇没有了