写给你的金融时间序列分析:回归篇
发布时间:2024-06-04 | 来源: 川总写量化
作者:石川
摘要:时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程,每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。
0 引言
本文继续拓展《写给你的时间序列分析》系列。系列的前序文章《写给你的金融时间序列分析:基础篇》、《写给你的金融时间序列分析:初级篇》、《写给你的金融时间序列分析:进阶篇》、《写给你的金融时间序列分析:应用篇》和《写给你的金融时间序列分析:补完篇》主要是针对单一时间序列的检验和建模。本文则介绍多个时间序列之间的回归问题。
在时序回归模型中,最简单的模型是静态模型(static model):
在该模型中,“静态”意味着模型考察的是
式中
不同于截面回归,时序回归的难点在于各种(自、协)相关性的处理:包括解释变量的自相关性、随机扰动(error)的自相关性;前、后不同期解释变量和 error 的协相关性等。因此,在通过回归来分析时间序列时需要格外小心,避免得到错误的统计推断结果。本文的主要内容包括,有限样本下 OLS 估计量的性质、大样本下 OLS 估计量的渐近性质、error 自相关性检验和应对、error 异方差性问题、伪回归、协整及其推断以及误差修正模型。本文的 technique 部分主要参考了 Wooldridge 的神书 Introductory Econometrics: A Modern Approach,特此说明。
1 Finite Sample Properties of OLS
在有限样本下,OLS 的核心假设包括:
假设一(Linear in parameters):总体中
和 满足线性关系。 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。
假设三(Zero conditional mean):
。这意味着所有解释变量都是外生的,即任何解释变量,在任何时刻都和 不相关。
为了加强理解,我们再对假设三做一些说明。首先,这个假设中最重要的就是
除上述三条假设外,再考察下面两个假设:
假设四(Homoskedasticity):同方差,即
假设五(No serial correlation):
。这条假设是关于 error 自相关性的。它对解释变量的自相关性不做任何假设。(解释变量存在自相关性也是时序回归模型的特点之一。)
上述五条假设正是时序回归模型的 Gauss-Markov 假设。当这些假设均成立时,
其中
其中
2 Asymptotic Properties of OLS
2.1 平稳性和弱相关性
对于绝大多数实际问题而言,前一节的 Gauss-Markov 假设都太严苛了,难以满足(特别是解释变量严格外生)。因此,比起考察有限样本下 OLS 估计量的特性外,我们自然更关心在大样本下 OLS 估计量的渐近性质。不过讽刺的是,对于时序回归模型而言,我们往往很难有足够多的样本。(比如用月频收益率数据检验一个多因子模型,那么每年才有 12 个样本,50 年也才有 600 个样本。)不幸的是,时序问题的大样本分析比截面数据分析复杂得多。我们需要格外小心数据的相关性。为此,我们首先来回顾平稳性和弱相关性的概念。
如果随机过程
对于一个平稳序列,如果
2.2 渐近性质
一旦平稳性和弱相关性得到满足,大数定律和中心极限定理就可以适用,因此在大样本下可以获得 OLS 估计量的一些良好性质,从而帮助分析
假设一(Linear in parameters):这一条和前一节中的假设一相同。除此之外,我们假设
满足平稳性和弱相关性。 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。
假设三(Zero conditional mean):
。相比于前一节中的假设三,此处把它放松到 期 和解释变量 的独立性了。相比于严格外生,这一条要弱很多,只限制同时期的相关性,而对于 和任何非 时刻的解释变量之间的关系不做任何限制。当平稳性满足时,如果 对某一期 成立,则它对所有的 都成立。然而,这条假设下允许 期的 影响未来的解释变量 。
当以上三条假设均满足时,OLS 估计量是一致的,即
接下来,和本文第 1 节一样,再加上假设四和假设五:
假设四(Homoskedasticity):同方差,即
假设五(No serial correlation):
。
当上述五个假设都满足时,OLS 估计量在大样本下表现出很好的渐近性质:(1)OLS 估计量满足渐近正态分布;(2)所有相关的 t-statistic 和 F-statistic 都是渐近成立的;(3)OLS 是渐近有效的,即它的方差相比于其他 estimators 的方差更低。
3 Error Serial Correlation
由以上介绍可知,error 存在自相关并不影响 OLS 估计量的无偏性。然而,它会影响
3.1 自相关性检验
一般来说,我们可以检验 error 是否满足 AR(1) 过程。此时,取决于解释变量是否严格外生,又分为两种情况。首先假设解释变量严格外生,则可以通过如下的步骤检验:
Step 1: 用
对 时序回归,得到残差序列 。 Step 2: 用
对 时序回归,即 。 Step 3: 考察回归系数
的 t-statistic,并进行统计推断。如果拒绝原假设 ,则说明 error 存在自相关性。
值得一提的是,上述第二步中的自回归模型中假设了
除了上述方法外,另一个常见的检验是 Durbin-Watson Test(DW Test,比如 Python 的 OLS 回归结果会返回 DW test 的值)。该统计量为:
通常情况下,
接下来看看解释变量不是完全外生的情况。在这种情况下,上述检验不再有效(及时在大样本下也是如此),因此不能使用。此时,可以将上述三步走中的第二步改为如下的回归模型:
即使用
然后,可以使用 F test 检验
3.2 修正 Error 自相关性
如果 error 存在在相关性,我们可以对它进行处理。假设 error 是一个 AR(1) 过程且
由上述模型可知
上述变形后得到的估计量为 GLS 估计量,它是 BLUE,因此 t test 和 F test 都可以正常使用。GLS 估计量中假设
Step 1: 用
对 时序回归,得到残差序列 。 Step 2: 用
对 时序回归,即 。 Step 3: 考虑如下回归模型(注意:该模型没有截距项):
其中 ; ; ; ; ; 。
在这个回归模型中,t test 和 F test 都在大样本下是渐近有效。上述的模型看上去如此复杂是因为
无论
3.3 Serial Correlation-Robust Inference for OLS
考虑如下时序回归模型:
为了方便讨论,假设我们关注
Step 1:进行 OLS 回归,得到
的 standard error,记为“ ”,同时得到 以及残差序列 。 Step 2:以
为被解释变量(因为我们关心的是 ),以其他 为自变量,构造如下回归模型: Step 3:利用 OLS 得到残差序列
。用该序列和 序列相乘得到新的序列
Step 4:选定希望考虑的自相关 lags
,计算变量 (有没有想起 Newey-West):
Step 5:使用以下公式得到
的 serial correlation-robust standard error:
通常情况下,如果 error 确实存在自相关性,那么上述得到的 standard error 会大于 OLS 的 standard error。当 error 自相关非常严重时,使用上述方法得到的 standard error 往往非常大,导致回归系数不再显著。在实践中,如果能够合理的认为解释变量是完全外生的话,则建议使用 FGLS;反之,如果我们对解释变量的外生性存在非常强烈的疑问时,可以选择 OLS + serial correlation-robust standard error。
4 Heteroskedasticity
异方差意味着 error 的波动随
Breusch-Pagan test 的步骤总结如下:
Step 1:通过 OLS 来估计原始回归模型,得到残差序列
: Step 2:使用
作为被解释变量,并考虑如下回归模型,计算其 R-squared,记为 : Step 3:构建 F-statistic 或 LM-statistic 如下:
Step 4:根据 F-statistic 或 LM-statistic 判断是否拒绝原假设(原假设是没有异方差)。如果存在异方差,那么它虽然不会影响回归系数的无偏性,但是会影响 standard errors,因此应使用 heteroskedasticity-robust standard errors。
5 伪回归
5.1 I(1) 序列
从上面的论述可知,大样本下 OLS 满足良好渐近性质的关键条件是时间序列满足平稳性和弱相关性。对于有些时间序列,其前后满足强相关性(比如股票价格),这时就应该进行必要的处理。不满足弱相关性的一个例子正是随机游走(Random Walk):
随机游走是一个特殊的 unit root process。更一般的情况中,
满足弱相关性的时间序列是
5.2 伪回归
如果贸然对两个
来看下面这个例子。假设
其中
然而事实是,by design 这两个序列之间是相互独立的。那么,下面这种解释有没有可能:“由于噪声,这两个序列之间相互独立或许是假设检验中的小概率事件”?如果这个解释成立,那么如果我们进行大量的随机模拟,并以 2.0 作为 t-statistic 绝对值的阈值,那么应该仅在 5% 的随机模拟中看到两者的相关性。不幸的是,模拟结果否决了上述猜想。在模拟的 500 次实验中,t-statistic 绝对值超过 2.0 的情况出现比例超过 70%(下图展示了 t-statistic 绝对值的分布)显然,回归模型所发现的二者之间的关系是虚假的。这个现象最初被 Granger and Newbold (1974) 发现,他们将其称为伪回归。
当我们用
这个例子说明,在进行回归分析之前,应该首先检验时间序列是否满足平稳性。为此,可以考虑使用 Augmented Dickey-Fuller test。对于给定的时间序列,例如