写给你的金融时间序列分析:回归篇

发布时间:2024-06-04  |   来源: 川总写量化

作者:石川

摘要:时间序列回归分析并非是简单地将两个序列进行回归处理,而是一个需要精心设计和仔细考量的过程,每一步都涉及到对数据特性的深入理解和对模型假设的严格检验。


0 引言


本文继续拓展《写给你的时间序列分析》系列。系列的前序文章《写给你的金融时间序列分析:基础篇》《写给你的金融时间序列分析:初级篇》《写给你的金融时间序列分析:进阶篇》《写给你的金融时间序列分析:应用篇》《写给你的金融时间序列分析:补完篇》主要是针对单一时间序列的检验和建模。本文则介绍多个时间序列之间的回归问题。


在时序回归模型中,最简单的模型是静态模型(static model):


  


在该模型中,“静态”意味着模型考察的是  和  之间的同期关系(比如做多因子时序回归检验)。与之相对应的是有限分布滞后模型(finite distributed lag model,FDL)。例如,一个  阶 FDL 模型为:


  


式中  为当期的  对  的影响,它被称为 impact propensity;而全部系数之和,即  ,则称为 long-run propensity。


不同于截面回归,时序回归的难点在于各种(自、协)相关性的处理:包括解释变量的自相关性、随机扰动(error)的自相关性;前、后不同期解释变量和 error 的协相关性等。因此,在通过回归来分析时间序列时需要格外小心,避免得到错误的统计推断结果。本文的主要内容包括,有限样本下 OLS 估计量的性质、大样本下 OLS 估计量的渐近性质、error 自相关性检验和应对、error 异方差性问题、伪回归、协整及其推断以及误差修正模型。本文的 technique 部分主要参考了 Wooldridge 的神书 Introductory Econometrics: A Modern Approach,特此说明。


1 Finite Sample Properties of OLS


在有限样本下,OLS 的核心假设包括:


  • 假设一(Linear in parameters):总体中  和  满足线性关系。 

  • 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。

  • 假设三(Zero conditional mean):  。这意味着所有解释变量都是外生的,即任何解释变量,在任何时刻都和  不相关。


为了加强理解,我们再对假设三做一些说明。首先,这个假设中最重要的就是  和任何时刻的任何  都是不相关的。因此,  是严格外生的。如果  和  不相关且  ,则这条假设自动成立。在上述三条假设下,OLS 估计量是无偏的,即  。然而,如果  仅和同期的解释变量  之间满足  ,则称  是同期外生的。它对于假设三而言是一种放松。在同期外生假设下,OLS 估计量是一致的,但(对于有限样本来说)不一定是无偏的。


除上述三条假设外,再考察下面两个假设:


  • 假设四(Homoskedasticity):同方差,即  

  • 假设五(No serial correlation):  。这条假设是关于 error 自相关性的。它对解释变量的自相关性不做任何假设。(解释变量存在自相关性也是时序回归模型的特点之一。)

上述五条假设正是时序回归模型的 Gauss-Markov 假设。当这些假设均成立时,


  


其中  是  的 total sum of squares,  是把  对其他解释变量回归的 R-squared。此外,以下这个常见的 error 方差估计量也是无偏的:


  


其中  是期数、  是解释变量的个数。且 Gauss-Markov 定理指出,在上述五条假设都满足下,OLS 是 BLUE。此外,和截面回归一样,如果要进行统计推断,就必须假设 error 的分布。这就引出了第六条假设,即  和解释变量  完全独立、且满足 iid 正态分布  。全部六条假设构成了时间序列回归的 Classical Linear Model (CLS) assumptions。在这些假设下,我们可以像截面回归一样,使用 t-statistic 来检验单一解释变量的回归系数,用 F-statistic 来同时检验多个解释变量的回归系数。


2 Asymptotic Properties of OLS


2.1 平稳性和弱相关性


对于绝大多数实际问题而言,前一节的 Gauss-Markov 假设都太严苛了,难以满足(特别是解释变量严格外生)。因此,比起考察有限样本下 OLS 估计量的特性外,我们自然更关心在大样本下 OLS 估计量的渐近性质。不过讽刺的是,对于时序回归模型而言,我们往往很难有足够多的样本。(比如用月频收益率数据检验一个多因子模型,那么每年才有 12 个样本,50 年也才有 600 个样本。)不幸的是,时序问题的大样本分析比截面数据分析复杂得多。我们需要格外小心数据的相关性。为此,我们首先来回顾平稳性和弱相关性的概念。


如果随机过程  在任意时刻的分布是一样的,就说它满足平稳性。严格的平稳性是非常强的假设。通常,如果  不随时间变化,且  不随  和  变化,我们说  是协方差平稳过程(covariance stationary process)。在直觉上,平稳性的要求不难理解:如果我们希望通过回归分析来理解两个变量之间的关系,则需要假设这种关系在时间上是稳定的。如果两个变量之间的关系在每个时间段内任意变化,而我们仅仅有关于它们的一个 realization(毕竟“历史无法重来”),那么显然无法指望能通过时序回归模型挖掘出二者之间的靠谱关系。


对于一个平稳序列,如果  和  随  的增加几乎是独立的,那么我们称它满足弱相关性。对于上面提到的协方差平稳过程,如果  随  的增大逐渐趋近于 0,则它满足弱相关性,这也称为渐近非相关。这里最重要的假设是  前后之间的影响不是“永久性”的,而是会逐渐衰退至没有影响。值得一提的是,一个非平稳的时间序列(比如有趋势的序列)也可以满足弱相关性。这类过程称为趋势平稳过程(trend-stationary process)。


2.2 渐近性质


一旦平稳性和弱相关性得到满足,大数定律和中心极限定理就可以适用,因此在大样本下可以获得 OLS 估计量的一些良好性质,从而帮助分析  和  之间的关系。下面我们来看看大样本下,OLS 估计量有哪些渐近性质。首先来看假设:


  • 假设一(Linear in parameters):这一条和前一节中的假设一相同。除此之外,我们假设  满足平稳性和弱相关性。

  • 假设二(No perfect collinearity):解释变量之间不存在完美的共线性。

  • 假设三(Zero conditional mean):  。相比于前一节中的假设三,此处把它放松到  期  和解释变量  的独立性了。相比于严格外生,这一条要弱很多,只限制同时期的相关性,而对于  和任何非  时刻的解释变量之间的关系不做任何限制。当平稳性满足时,如果  对某一期  成立,则它对所有的  都成立。然而,这条假设下允许  期的  影响未来的解释变量  。


当以上三条假设均满足时,OLS 估计量是一致的,即  。需要注意的是,由于上述假设放松了解释变量的外生性,因此我们只能在大样本下得出 OLS 估计量的一致性,而无法得出无偏性。


接下来,和本文第 1 节一样,再加上假设四和假设五:


  • 假设四(Homoskedasticity):同方差,即  

  • 假设五(No serial correlation):  


当上述五个假设都满足时,OLS 估计量在大样本下表现出很好的渐近性质:(1)OLS 估计量满足渐近正态分布;(2)所有相关的 t-statistic 和 F-statistic 都是渐近成立的;(3)OLS 是渐近有效的,即它的方差相比于其他 estimators 的方差更低。


3 Error Serial Correlation


由以上介绍可知,error 存在自相关并不影响 OLS 估计量的无偏性。然而,它会影响  的方差的估计。在这种情况下,所有相应的 test(例如 t-test、F-test)哪怕在大样本下也没有好的渐近性质。因此,对于统计推断而言,检验并应对 error 的自相关性十分必要。


3.1 自相关性检验


一般来说,我们可以检验 error 是否满足 AR(1) 过程。此时,取决于解释变量是否严格外生,又分为两种情况。首先假设解释变量严格外生,则可以通过如下的步骤检验:


  • Step 1: 用  对  时序回归,得到残差序列  。

  • Step 2: 用  对  时序回归,即  。

  • Step 3: 考察回归系数  的 t-statistic,并进行统计推断。如果拒绝原假设  ,则说明 error 存在自相关性。


值得一提的是,上述第二步中的自回归模型中假设了  满足同方差。如果  不满足该性质,可以使用 Breusch-Pagan test 来检验异方差性(见本文第 4 节)。如果存在异方差,则可以计算  的 heteroskedasticity-robust standard error,从而得到 heteroskedasticity-robust t-statistic。


除了上述方法外,另一个常见的检验是 Durbin-Watson Test(DW Test,比如 Python 的 OLS 回归结果会返回 DW test 的值)。该统计量为:


  


通常情况下,  和 DW 统计量近似满足如下关系:  。因此,如果 DW 统计量接近 2,则说明 error 没有自相关性。


接下来看看解释变量不是完全外生的情况。在这种情况下,上述检验不再有效(及时在大样本下也是如此),因此不能使用。此时,可以将上述三步走中的第二步改为如下的回归模型:


  


即使用  对  以及  进行时序回归。之后,便可以对  进行常规的统计推断。此外,上述检验也可以方便地拓展到残差满足  的情况,即在第二步考虑如下回归模型:


  


然后,可以使用 F test 检验  到  是否联合显著。如果对异方差有担忧,也同样可以使用 heteroskedasticity robust F-statistic。此外,也可以使用 Lagrange Multiplier (LM) statistic,这种检验也被称为 Breusch-Godfrey test,它的检验统计量是  ,其中 R-squared 是上述第二步中的 Goodness-of-fit。


3.2 修正 Error 自相关性


如果 error 存在在相关性,我们可以对它进行处理。假设 error 是一个 AR(1) 过程且  已知:


  


由上述模型可知  。由于  已知,因此对原始时间序列模型变形可得(为了简化数学公式,假设只有一个解释变量,多个解释变量的情况可以非常容易的扩展):


  


上述变形后得到的估计量为 GLS 估计量,它是 BLUE,因此 t test 和 F test 都可以正常使用。GLS 估计量中假设  已知。然而,在实际问题中,这几乎是不切实际的,因此只能对  进行估计,得到  。在这种情况下,上述 GLS 变成 feasible GLS(FGLS)。假设 error 满足某个参数未知的 AR(1) 过程,则 FGLS 的步骤为:


  • Step 1: 用  对  时序回归,得到残差序列  。

  • Step 2: 用  对  时序回归,即  。

  • Step 3: 考虑如下回归模型(注意:该模型没有截距项):  其中  ;  ;  ;  ;  ;  。

在这个回归模型中,t test 和 F test 都在大样本下是渐近有效。上述的模型看上去如此复杂是因为  是第一个点,因此没法差分消除 error 自相关性的影响,所以对它进行了特殊处理。上述这个考虑了时序上第一个点的 FGLS 也被称为 Prais-Winsten estimation。此外,也可以舍弃第一个点,那么上述回归将会从  开始,表达式也会变得更简单,它被称为 Cochrane-Orcutt estimation。对于很多经济学问题,时序上样本点是很宝贵的,因此不愿意舍弃第一个点而采用 PW estimation。


无论  是否已知,即无论我们用 GLS 还是 FGLS 还修正残差相关性,上述的核心假设都是解释变量是完全外生的。当这个假设难以满足的时候,FGLS estimator 则不满足一致性。换句话说,费了半天劲的 FGLS 可能还不如 OLS 好使。最近几年,人们更倾向于仍然使用 OLS,但此时由于 error 存在自相关性,因此需要进行 serial correlation-robust inference。


3.3 Serial Correlation-Robust Inference for OLS


考虑如下时序回归模型:


  


为了方便讨论,假设我们关注  并希望得到它的 serial correlation-robust standard error。为此,可以采取如下步骤:


  • Step 1:进行 OLS 回归,得到  的 standard error,记为“  ”,同时得到  以及残差序列  。

  • Step 2:以  为被解释变量(因为我们关心的是  ),以其他  为自变量,构造如下回归模型:  

  • Step 3:利用 OLS 得到残差序列  。用该序列和  序列相乘得到新的序列 

 。

  • Step 4:选定希望考虑的自相关 lags  ,计算变量  (有没有想起 Newey-West):

  

  • Step 5:使用以下公式得到  的 serial correlation-robust standard error:

  


通常情况下,如果 error 确实存在自相关性,那么上述得到的 standard error 会大于 OLS 的 standard error。当 error 自相关非常严重时,使用上述方法得到的 standard error 往往非常大,导致回归系数不再显著。在实践中,如果能够合理的认为解释变量是完全外生的话,则建议使用 FGLS;反之,如果我们对解释变量的外生性存在非常强烈的疑问时,可以选择 OLS + serial correlation-robust standard error。


4 Heteroskedasticity


异方差意味着 error 的波动随  发生变化。比如,在我们以收益率为被解释变量而进行时序回归时,几乎可以肯定 error 存在异方差性。为此,可以使用 Breusch-Pagan test 来检验异方差。不过需要注意的是,该检验的前提是必须保证 error 没有自相关性。所以,通常为了检验异方差,也要先检验自相关性。


Breusch-Pagan test 的步骤总结如下:


  • Step 1:通过 OLS 来估计原始回归模型,得到残差序列  :  

  • Step 2:使用  作为被解释变量,并考虑如下回归模型,计算其 R-squared,记为  :  

  • Step 3:构建 F-statistic 或 LM-statistic 如下:

  

  

  • Step 4:根据 F-statistic 或 LM-statistic 判断是否拒绝原假设(原假设是没有异方差)。如果存在异方差,那么它虽然不会影响回归系数的无偏性,但是会影响 standard errors,因此应使用 heteroskedasticity-robust standard errors。


5 伪回归


5.1 I(1) 序列


从上面的论述可知,大样本下 OLS 满足良好渐近性质的关键条件是时间序列满足平稳性和弱相关性。对于有些时间序列,其前后满足强相关性(比如股票价格),这时就应该进行必要的处理。不满足弱相关性的一个例子正是随机游走(Random Walk):  ,其中  是 iid 的白噪声。从这个模型中可以推出  ,因此有  , 这意味着不管  多大,0 时刻的取值  都对  有着无法磨灭的影响。更进一步的可以推出:


  


随机游走是一个特殊的 unit root process。更一般的情况中,   中的  可以不满足 iid,而是某个 AR 或者 MA 过程。在这种更一般的情况下,random walk 的一些性质不再满足。然而不变的是,  序列之间的相互影响依然是不能随时间间隔的增大而消除,因此它依然不是平稳的。Unit root process 的单整阶数为 1,因此是一个  序列。而一个平稳序列的单整阶数应是 0,又称为  序列。


满足弱相关性的时间序列是  。如果解释变量和被解释变量都是  ,则可以直接进行时序回归分析。而对于  的序列,通常的做法是通过一阶差分,把它转换成  的序列,然后再进行回归分析。


5.2 伪回归


如果贸然对两个  序列进行时序回归分析,则有可能落入伪回归(spurious regression)的陷阱。伪回归指的是自变量和因变量之间本来没有任何关系,但由于某种原因,回归分析却显示出它们之间存在统计意义上的相关性,让人误以为两者之间有关联,这种相关性称作伪关系(spurious relationship)。


来看下面这个例子。假设  和  是两个从零开始的随机游走:


  


其中  和  是两个独立的白噪声,满足  。由上述定义可知,  和  两个时间序列也是相互独立的。然而,如果我们考虑回归模型  会怎样呢?以下给出了一个随机的例子。从  和  的时间序列图中不难看出,两者似乎高度相关,而回归系数   的 t-statistic 更是超过 13。


图片


然而事实是,by design 这两个序列之间是相互独立的。那么,下面这种解释有没有可能:“由于噪声,这两个序列之间相互独立或许是假设检验中的小概率事件”?如果这个解释成立,那么如果我们进行大量的随机模拟,并以 2.0 作为 t-statistic 绝对值的阈值,那么应该仅在 5% 的随机模拟中看到两者的相关性。不幸的是,模拟结果否决了上述猜想。在模拟的 500 次实验中,t-statistic 绝对值超过 2.0 的情况出现比例超过 70%(下图展示了 t-statistic 绝对值的分布)显然,回归模型所发现的二者之间的关系是虚假的。这个现象最初被 Granger and Newbold (1974) 发现,他们将其称为伪回归。


图片


当我们用  对  回归时,究竟发生了什么呢?对于模型  而言,在原假设  下有  。由于  是从零开始的随机游走,因此原假设成立意味着  且  。换言之,在原假设下,模型中的 error term  是一个随机游走。显然无论有限样本还是大样本下,这个 error 都不满足 Gauss-Markov 假设。


这个例子说明,在进行回归分析之前,应该首先检验时间序列是否满足平稳性。为此,可以考虑使用 Augmented Dickey-Fuller test。对于给定的时间序列,例如  ,该 test 考察如下回归模型: