Ridge
发布时间:2025-12-19 | 来源: 川总写量化
作者:石川
摘要:Ridge vs. Lasso vs. PCA
0
最近听了修大成教授的一个 talk,其中信息浓度过于高了。我从里面挑出一个观点来唠唠。
这个观点来自他的 working paper "Can machines learn weak signals?" (Shen and Xiu 2024)。该文讨论了 Ridge 和 Lasso 谁能够从 weak predictors 中提取信息。结论是用 Ridge not Lasso。
这个问题对量化投资非常有实际意义。原因有多个。首先,在 type 1 and type 2 errors trade-off 下,降低衡量因子显著性的 t-cutoff 已经成为一种合理的选择。而在这种情况下,注定意味着更多的 weak predictors 被纳入到收益率模型当中。
另外,在充斥着不确定性和模糊性的市场中,使用更多的因子才有可能在 OOS 更好的分散风险。从这个角度来说,定价模型在 firm characteristics 空间内是高维的(尽管 some old-fashion big names 不会同意。Anyway。)
更重要的是,Shen and Xiu (2024) 的讨论不单单是限于 Ridge vs Lasso,而是把定性的结论扩展到更复杂的机器学习模型。
所以,我们今天就来聊聊 Ridge。
1
考虑线性回归模型
Ridge 在 OLS 的基础上添加了一个与系数平方和成正比的罚项( 正则化),即 。其损失函数为(for simplicity,假设没有截距项):
因此,Ridge estimator 为:
其中超参数 控制罚项的强度。当 时,Ridge estimator 退化为 OLS estimator;而当 时,。
Ridge 会使回归系数向零收缩,但不会将其精确地压缩至零,因此保留了全部协变量。所以模型依然是 dense 的。这也是其能够捕捉 weak predictors 所包含的信息的关键。
和它相反的是,Lasso estimator 会把一些协变量的系数收缩到 exactly zero,从而得到稀疏模型,这也是其在提取 weak predictors 信息时表现不佳的原因。
2
下面,让我们从更深层次来理解一下 Ridge estimator。首先是 Bayesian 视角。
假设 服从多元正态的先验分布:
通过简单的推导可知,其后验均值为:
其中 是回归模型中 error term 的方差。
比较 和 可知,后者中 的作用就是前者中 。只不过我们不需要 specify 先验的参数 ,而是用数据驱动的方法(例如 cross-validation)来确定 。从这个意义上说,Ridge estimator 是一种 empirical Bayes 方法。
3
此外,我们还可以从特征分解的视角来解读 Ridge estimator。考虑如下对 的 SVD 分解:
其中 满足 ; 是 orthonormal;以及
其中 。
通过上述 SVD 分解,可以方便的求出:
可见, 的列就是 的特征向量,而 就是对应的特征值。
由 可知 。因此有:
由此可知,对于 而言, 的列仍然是其的特征向量,而 则表示第 个特征值。
利用线性代数的性质, 的特征分解为:
因此,Ridge estimator 可以表达为:
且
另一方面,OLS 的 为
比较二者可知,Ridge 会收缩所有主成分的系数,但 越小(即 variance 越小)的主成分,其系数的收缩程度就越大。这一特性使得 Ridge 能够温和地衰减那些方差小、更可能包含噪声的次要成分,同时相对保留高方差、信息量大的主要成分,从而实现了一种“软阈值”去噪,对利用 weak predictors 至关重要。
4
最后再来看看 Ridge vs. PCA。
PCA 中我们往往只保留前 个主成分,因此有:
其中对角阵中只有 个 1。可见,与 Ridge 不同,PCA 通过保留前 个主成分实现降维,而舍弃了剩余 small variance 的主成分。而 Ridge 并不舍弃任何主成分,但是对 variance 小的主成分施加更大的 shrinkage。
这就是二者的区别。
References
Shen, Z and D. Xiu (2024). Can machines learn weak signals? Working paper.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。