PCA 的源起、中兴和未来

发布时间：2024-01-12 | 来源: 川总写量化

作者：石川

摘要：PCA 及其各种变化已成为估计隐性因子模型的利器。本文带你了解实证资产定价领域中 PCA 的源起，中兴和未来。

1 源起

APT (Ross 1976) 指出资产收益率和因子之间的线性结构。根据定义，我们可以把资产协方差矩阵用因子暴露和因子溢价的协方差矩阵表示，即：

$\displaystyle \pmb{\Sigma}=\pmb{\beta}\pmb{\Sigma}_f\pmb{\beta}^\prime+\pmb{\Sigma}_e$

其中 $\pmb{\Sigma}$ 、 $\pmb{\Sigma}_f$ 以及 $\pmb{\Sigma}_e$ 分别为资产协方差矩阵、因子协方差矩阵和随机扰动的协方差矩阵； $\pmb{\beta}$ 是因子暴露。Ross (1976) 假设不同资产的随机扰动不相关，因此 $\pmb{\Sigma}_e$ 为对角阵。满足该条件的因子模型被称为严格的因子模型（exact factor model）。

上式意味着因子的协方差应能解释资产协方差的一大部分。因此，我们也可以从资产的协方差矩阵出发来估计隐性（latent）因子和相应的因子暴露。谈到分析协方差矩阵，最直接的是因子分析（factor analysis）。Roll and Ross (1980) 通过这种方法分析了早年的美股收益率数据并发现了三到四个因子，它们在一定程度上成功的解释了资产的预期收益率。

之后，Chamberlain and Rothschild (1983) 放松了 Ross 关于 $\pmb{\Sigma}_e$ 的假设，允许随机扰动之间弱相关，并由此得到了近似的因子模型（approximate factor model）。对于该模型，他们指出用 PCA 代替因子分析可以得到同样的结果。另外，Connor and Korajczyk (1986,1988) 提出了当截面（cross-section）上资产个数增大时的渐近主成分分析（asymptotic principal components）。这些研究一举奠定用 PCA 研究隐性因子或统计因子（statistical factor）的基础。

然而在实证方面，应用 PCA 却并没有那么顺利。Connor and Korajczyk (1988) 最早使用大约 1500 支股票研究了隐性因子模型的表现。结果显示，尽管基于 PCA 的因子模型比起 CAPM 模型更能解释样本中的风险和收益率，但定价误差依然非常显著。这是因为基于 PCA 估计的时无条件（或静态）因子模型（即 beta 不随时间变化），而这类模型很难描述个股级别的数据。从那之后，PCA 便淡出了人们的视线。

2 中兴

近年来，随着机器学习在实证资产定价中的广泛应用，PCA 再次回到了人们的视线。这一现象在一定程度上得益于三方面的原因。

首先最重要的原因是，尽管基于个股协方差矩阵的 PCA 所构造的隐性因子模型在描述个股面板数据时效果不理想，但如果把 assets 换成基于公司特征构造的投资组合，然后使用投资组合的协方差矩阵作为 PCA 的输入，则得到的隐性多因子模型能够很好的为这些资产定价。这方面的代表包括 Kozak, Nagel and Santosh (2018, 2020)。

第二个原因是从无条件（静态）因子模型向条件（动态）因子模型的转变，这背后的代表是 Kelly et al. (2019) 的工具变量 PCA（IPCA）模型。该模型和前述研究最大的区别是将因子暴露 beta 视为公司特征的函数，从而对 beta 直接建模。由于公司特征是随时间变化的，因此 beta 也自然就是时变的。以此得到的隐性因子模型能够更好的捕捉资产收益率在时序的变化以及在截面上的差异。后续一些比较基于不同机器学习方法所构造的因子模型的实证研究发现，IPCA 方法不输于（甚至是优于）一些更复杂的非线性模型（例如深度神经网络）。

第三个原因是从经济学角度对传统 PCA 目标函数的扩展，使通过它得到的隐性模型有更好的定价能力。关于这点，我们可以通过 Lettau and Pelger (2020a, b) 提出的 Risk-Premium PCA（PR-PCA）为例来理解。令 $\pmb{R}$ 表示资产的超额收益率矩阵、 $\bar{\pmb{R}}$ 表示资产超额收益率时序均值向量。则传统 PCA 是对资产的（样本）协方差矩阵，即：

$\displaystyle\frac{1}{T}\pmb{R}^\prime\pmb{R}-\bar{\pmb{R}}\bar{\pmb{R}}^\prime$

来进行。不难看出，传统 PCA 方法只考虑了收益率的二阶矩信息，而忽视了和定价可能更为相关的一阶矩信息。基于这个动机，Lettau and Pelger (2020a, b) 对协方差矩阵进行了变形，加入了一阶矩信息：

$\displaystyle\frac{1}{T}\pmb{R}^\prime\pmb{R}+\gamma\bar{\pmb{R}}\bar{\pmb{R}}^\prime$

并通过参数 $\gamma$ 控制一阶矩信息的强弱（当 $\gamma=-1$ 时，上述表达式退化为样本协方差矩阵）。以该目标得到的隐性因子模型被证明在样本外有更好的定价能力以及更高的夏普比率。

3 未来

Lettau and Pelger (2020a, b) 的研究事实上为进一步发挥 PCA 在实证资产定价中的作用提供了一个可行的思路，即人们能否通过经济学指引对样本协方差矩阵进行其他变形，从而更好的估计隐性因子模型。Bryzgalova et al. (2023) 一文从时序和截面角度精彩地回答了这个问题。（BTW，去年我没在知乎上回答 202X 年优秀的金融学论文这个问题。如果要我来回答，那么它就是 Bryzgalova et al. 2023）。

这篇文章最大的价值，是提出了如何在样本协方差矩阵中纳入截面或时序或 both 信息的一个框架。在数学上，它们均可以被表达为在样本协方差矩阵中加入相关信息的形式，并通过罚参数来控制信息的强弱。以截面信息为例，我们可以对如下矩阵进行 PCA：

$\displaystyle\frac{1}{NT}\pmb{R}\left(\pmb{I}_N+\gamma\frac{N}{L}\pmb{P}\right)\pmb{R}^\prime$

其中 $\pmb{P}$ 表示含有截面信息的截面投影矩阵， $L$ 可以理解为截面信息的维数。那么，从经济学先验出发，可以考虑哪些截面和时序信息呢？

先来说截面方面。大量实证结果表明通过公司特征进行组合排序而构造的分位数投资组合的收益率往往十分单调。因此我们自然希望这些投资组合对于 PCA 得到的隐性因子的暴露也是单调的。我们可以以此为目标对样本协方差矩阵进行相应的变形。再说时序方面。上一节介绍的 PR-PCA 已经是这方面的一个特例，即它在样本协方差矩阵的基础上加入了不同资产收益率时序均值的信息 $\bar{\pmb{R}}\bar{\pmb{R}}^\prime$ 。除此之外，我们还可以考虑其他的时序信息，比如资产相对给定定价模型（例如 FF5）的定价误差 alpha。这背后的动机是，我们希望隐性因子模型所估计出的因子，能够有效地对该定价模型无法解释的收益率部分定价。

从 Bryzgalova et al. (2023) 的实证结果来看，加入截面或者时序信息的 PCA 在样本内、外均能获得更好的结果，体现为更小的定价误差以及更高的夏普比率。那么，为什么加入这些信息有助于估计出更好的因子呢？对于估计隐性因子而言，能否发现一个因子的关键因素在于因子的强度，即它能解释资产收益率共同运动的比例。这一点从 PCA 的结果不难理解：找到的因子对应着特征值最大的特征向量。然而，如果一个因子仅能解释很少的波动，它就是一个弱因子（week factor），哪怕它带有关于截面预期收益率差异的重要信息，也无法被 PCA 发现。在样本协方差矩阵中加入截面和/或时序信息的作用就是为了提高弱因子的强度。因此，尽管一个因子就解释资产波动而言可能很弱，但是它在新加入的信息方面可能很强。通过对协方差矩阵的变形能够提升这些因子的强度，从而让它们可以被发现和估计。

对于不同类型的因子，加入新信息都是有益的。那些原本无法仅通过协方差矩阵检测到的弱因子，现在可以被估计出来。那些强度一般的因子（semi-weak factors），能够以更高的收敛率被估计出来。而对于本来就能够解释大部分波动的强因子而言，加入上述信息也能提升它们的估计效率。这是因为加入的截面和时序信息包含了收益率的一阶矩信息，而如此得到的 PCA 可以被视为一个矩估计量，其中通过优化罚参数来权衡不同的矩信息。

Bryzgalova et al. (2023) 所提出的框架的意义在于，它能够让人们根据自己的目标，通过适当的经济学依据来引入关于隐性因子的先验信息，并得到更好的隐性因子模型。它代表了 PCA 的未来。最后，让我以 Bryzgalova et al. (2023) 自己的话总结并结束本文：

Our framework can be used to study a broad class of various asset-pricing restrictions related to different spanning properties of the risk factors as well as shape restrictions on their loadings. Importantly, we do not aim to provide a single most efficient way to recover the underlying SDF by choosing “optimal” priors. Instead, we allow the researcher to specify different types of restrictions consistent with both structural and reduced-form insights about the cross-section of asset returns and risk factors that drive it.

参考文献

Bryzgalova, S., V. DeMiguel, S. Li, and M. Pelger (2023). Asset-pricing factors with economic targets. Working paper.

Chamberlain, G. and M. Rothschild (1983). Arbitrage, factor structure, and mean-variance analysis on large asset markets. Econometrica 51(5), 1281–1304.

Connor, G. and R. A. Korajczyk (1986). Performance measurement with the arbitrage pricing theory. Journal of Financial Economics 15(3), 373–394.

Connor, G. and R. A. Korajczyk (1988). Risk and return in an equilibrium APT application of a new test methodology. Journal of Financial Economics 21(2), 255–289.

Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return. Journal of Financial Economics 134(3), 501–524.

Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models. Journal of Finance 73(3), 1183–1223.

Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271–292.

Lettau, M. and M. Pelger (2020a). Estimating latent asset-pricing factors. Journal of Econometrics 218, 1–31.

Lettau, M. and M. Pelger (2020b). Factors that fit the time series and cross-section of stock returns. Review of Financial Studies 33(5), 2274–2325.

Roll, R. and S. A. Ross (1980). An empirical investigation of the arbitrage pricing theory. Journal of Finance 35(5), 1073–1103.

Ross, S. A. (1976). The arbitrage theory of capital asset pricing. Journal of Economic Theory 13(3), 341–360.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

合格投资者声明

PCA 的源起、中兴和未来