网站首页 学术活动 暑期学校 正文

[苏良军教授篇] 2022世界计量经济学会“亚洲计量经济学与统计学暑期学校”系列课程

2022-07-23

发布者:点击次数:

由中国科学院大学经济与管理学院、中国科学院数学与系统科学研究院和中国科学院预测科学研究中心共同举办的2022世界计量经济学会“亚洲计量经济学与统计学暑期学校”于7月18日正式开启,邀请知名计量经济学与统计学领域的专家授课,分享最新理论前沿。

清华大学苏良军教授应邀于7月19日上午和22日下午为暑期学校学员做精彩授课教学。

苏良军现任清华大学经济系C. V. Starr讲席教授,主要研究领域包括计量经济学理论、非参数计量、面板数据模型、因子模型、大数据分析以及机器学习。苏良军教授已经在计量经济学、统计学、信息等领域的国际顶级期刊发表了超过80篇学术论文,包括 Econometrica、Econometric Theory、IEEE Transactions on Information Theory、Journal of Applied Econometrics、Journal of Econometrics、Journal of the American Statistical Association、Journal of Business & Economic Statistics、Journal of Machine Learning Research、Quantitative Economics。苏良军教授现担任Econometric Theory 的联合编辑 (co-editor),Journal of Econometrics和Econometric Reviews的副主编 (associate editor)。

7月19日上午,苏良军教授第一次授课带来题为“Regularized Estimation of High Dimensional Panels: Unobserved Heterogeneity, Cross Section Dependence, and Endogeneity”的讲座。讲座全程由香港城市大学经济及金融系崔丽媛老师主持。

为了对课程进行全局性的介绍,苏良军教授在课程之初回顾了传统的二维固定效应 (two-way fixed effects) 面板数据模型,从而指出了潜在的拓展方向,包括允许斜率系数存在不可观测的二维异质性 (时间和截面维度),允许截面相依性以更一般的形式存在,允许截面相依性和内生性并存,以及拓展到高维VAR 模型、面板分位数回归模型、非线性面板模型、网络模型等更复杂的框架中。此外,苏良军教授讲解了统计学中的低秩(low-rank)方法与本课程将要介绍的各种面板数据模型的联系与应用。

第一次课程包括三部分:二维异质性线性面板数据模型的联合推断、正则化估计的方法和理论及其在面板数据中的应用、异质性面板数据模型的估计及其在项目评估中的应用。

对于二维异质性线性面板数据模型的联合推断,苏良军教授首先介绍了模型的基本设置、参数的含义和主要目标。进一步,利用宏观经济学中关于投资率与储蓄率之间关系的一个经典研究问题,苏良军教授指出了允许斜率系数中存在二维异质性的建模动机。苏良军教授分析了主要的研究难点,包括研究高维逆矩阵的理论性质,斜率系数未知的异质性程度等,这都会影响估计量的收敛速度以及后续的统计推断。此外,为了让学员对忽略斜率系数异质性所带来的影响有更深入的理解,苏良军教授从简化后的公式推导层面以及蒙特卡洛模拟层面进行了讲解,并且能够很直观地发现不同的异质性程度对收敛速度产生的影响。

在介绍了主要研究贡献之后,苏良军教授开始讲授文献综述、估计方法、渐近理论,以及实证应用。在文献梳理环节,苏良军教授指出,现有文献较少涉及对个体和时间两个维度异质性同时进行刻画,且缺乏相应的统计推断结果。苏良军教授强调了此方法与Andrews的联合推断的区别,即二维异质性面板的联合推断不涉及到估计参数空间边界附近的参数。在模型估计方面,苏良军教授是基于广义固定效应方法来对模型进行估计,识别条件使得需要进行重参数化,感兴趣的斜率系数估计量均具有显示表达式。在分析渐近性质时,苏良军教授展示了估计量的Bahadur表示形式,并且介绍了偏误项和方差项的来源。例如潜在的时间动态性和内生性会带来偏误,而随机系数的二维异质性带来的影响会进入方差项,后者使得渐近方差由三部分组成。此外,基于一个简化后的同质性面板模型的推导,苏良军教授展示了基于异质性面板的估计方法并不会带来效率损失。随后,苏良军教授介绍了逐点推断结果、一致收敛速度。鉴于斜率系数的异质性程度会影响渐近方差且是未知的,苏良军教授提出了一种三重Bootstrap方法来进行统计推断,其核心思想是对二维异质性以及扰动项的信息进行重抽样。基于三重Bootstrap以及混合Bootstrap (考虑到时间维度的异质性存在序列相依性),在未知的二维异质性属于一类集合中,苏良军教授证明了构造的联合置信带的一致有效性。此外,苏良军教授构造了max-type的统计量对斜率异质性进行检验,并且证明了检验统计量的渐近分布和一致性。最后,在基于跨国面板数据对投资率和储蓄率之间关系的实证分析中,苏良军教授说明了两个变量之间影响的异质性。

对于正则化估计的方法和理论及其在面板数据中的应用,苏良军教授在一般的高维M-估计框架下,介绍了凸优化问题对应的总体目标函数、带正则项 (regularizer) 的样本目标函数,这里的正则项是指从参数空间到非负实数域的映射 (例如范数)。为了对估计量误差的界 (error bound) 进行研究,苏良军教授进而介绍了几组重要的概念。第一是正则项的可分性,即正则项函数如何将模型子空间与该子空间的正交补空间联系起来,苏良军教授特地给出了关于模型参数为稀疏向量下的L-1范数正则化、模型参数为低秩(low-rank)下的核范数 (nuclear norm) 正则化的两个实际例子,以便于学员理解抽象的概念。第二是正则项的对偶范数,苏良军教授介绍了对偶范数的定义,以及解释了对偶范数与保证估计量误差位于较小的子空间息息相关。第三是受约束强凸性和子空间相容常数,苏良军教授直观地解释了这两个概念并且分别描述了目标函数和正则项函数的光滑性。基于上述模型设定和基本概念,苏良军教授给出了估计误差平方范数的上界,并对影响上界的参数进行了详细解释。最后,苏良军教授结合现有的文献,介绍了上述正则化方法在估计面板数据模型中的应用。

关于异质性面板数据模型的估计及其在项目评估中的应用,苏良军教授首先介绍了一个包含二维异质性系数和交互固定效应的面板数据模型,并对感兴趣的参数及其含义和主要贡献进行了解释。例如,苏良军教授表示,在研究处理效应时,常见的DID模型通常施加了过多的同质性假设,而这里提出的异质性面板数据模型更加灵活。随后,苏良军教授提出了两步估计方法:第一步利用核范数正则化方法估计斜率系数和交互固定效应,并且利用奇异值阈值(singular value thresholding) 方法估计因子个数,进一步利用奇异值分解来更新对载荷和因子的估计。第二步将第一步估计的结果作为初始值,通过迭代程序来实现对斜率系数、载荷和因子的最终估计。在渐近性质方面,苏良军教授展示并解读了因子个数估计一致性、因子和载荷估计量的收敛速度、斜率系数估计量的Bahadur表示和渐近正态性等一系列理论结果。此外,苏良军教授从直观上解释了估计因子个数时对阈值的选择,以及两步估计方法对统计推断的重要性。为了使学员对上一部分讲授的正则化估计理论有更深入的理解,苏良军教授以第一步估计为例,详细推导了估计量误差范数的上界。最后,苏良军教授将提出的这套针对异质性面板的一般化理论应用到项目评估模型中,为定义的三种处理效应参数提供了详细的渐近分布理论。

7月22日下午,苏良军教授带来了“Regularized Estimation of High Dimensional Panels: Unobserved Heterogeneity, Cross Section Dependence, and Endogeneity”的第二次课程。本次课程主要对更为复杂的非线性面板数据模型进行估计和统计推断,包括带有共同因子的高维VAR模型、包含时变潜在组群的面板模型、异质性面板分位数模型以及网络模型中的潜在组群识别。苏良军教授强调了这些模型的共同点在于对低秩(low-rank)方法的应用。

在第一部分,苏良军教授讲解带有共同因子的高维VAR模型。首先,苏良军教授对宏观计量里面的VAR和动态因子模型(DFM)的建模动机和研究现状进行了梳理,从而佐证将共同因子引入高维VAR模型中的必要性。随后,在介绍完模型设定、平稳性条件后,苏良军教授对因子和载荷部分施加低秩约束、对回归系数施加稀疏性约束,并提出三步估计方法:第一步利用L-1范数和核范数惩罚项得到回归系数、因子和载荷参数以及秩的初始估计量,第二步利用第一步得到的因子估计量进一步更新回归系数和因子载荷的估计,从而建立回归系数估计量的一致收敛性质,第三步基于第二步得到的因子估计量,利用保守LASSO方法得到回归系数、因子和载荷的最终估计。苏良军教授展示并且解释了估计量的理论性质,包括秩估计量的一致性,因子及载荷估计量的收敛速度,变量选择的一致性,(有限维) 回归系数估计量的渐近正态性(oracle性质)。在理论解释部分,苏良军教授特别强调了第一步正则化估计只能得到矩阵L-2范数意义上的一致性,第二步则能实现L无穷范数意义的一致性,这为进行统计推断提供了可能,而第三步主要是为了进一步缩小第二步估计量的误差。此外,苏良军教授建立了可行的滞后项阶数选择准则。最后,苏良军教授将模型应用到ETF基金的面板数据,对金融资产波动率的连接网络进行刻画。研究结果表明,不可观测的共同因子带来的强截面相关性和资产之间的弱截面相关性均能对波动率的变化提供解释力。

随后,苏良军教授讲授了带有时变潜在组群结构的面板数据模型。首先,苏良军教授对建模动机进行了解释,他表示面板数据模型往往关注不可观测的异质性 (截面和时间维度),允许潜在组群结构的存在是对完全同质性和完全异质性的折衷,并且经济学诸如纳什均衡的例子也与这种建模思想一致,而允许组群结构发生结构变化 (时变)正是刻画时间维度的异质性。在对文献进行总结和分析之后,苏良军教授介绍了带有交互固定效应的异质性面板模型,其中斜率系数具有未知的组群结构,并且组群结构和斜率系数均会发生结构变化,这包含了三种特殊的情形,苏良军教授对此进行了详细的解释。随后,苏良军教授用了严谨清晰的推导来证明了系数矩阵均具有低秩的分解形式,并且这个理论结果也为识别结构变化时刻提供了启发。在模型估计方面,苏良军教授提出的方法由四步组成:第一步利用核范数正则化方法得到所有系数矩阵的估计,SVD分解则得到低秩成分 (可以理解为因子和载荷) 的初始估计,第二步利用逐行、逐列回归更新因子和载荷的估计,从而得到系数矩阵矩阵的第二步估计,第三步则是估计结构变化的时间点,第四步估计组群的数量和结构变化前后的组群结构和系数。在渐近理论方面,苏良军展示并解读了系数矩阵的一致收敛速度、因子和载荷估计量的一致收敛速度,以及结构变化时间点的估计量、组群数量、组群结构的估计一致性。在此处,苏良军教授强调了时间序列模型中通常只能得到结构变化时间比例的估计一致性,而面板数据模型能够保证对结构变化时间点进行一致地估计。在实证研究方面,苏良军教授利用跨国面板数据研究了对外直接投资对经济增长率的影响,并对识别出来的组群结构、结构变化进行了详细解读。

进一步,苏良军教授表示分位数回归模型已在同质性面板数据模型中得到广泛应用。为了更加充分地刻画异质性,苏良军教授提出了允许斜率系数随时间和截面变化的异质性面板分位数回归模型。在对模型参数、含义以及系数矩阵中隐含的低秩结构进行介绍之后,苏良军教授提出了一套三步估计流程:第一步将样本从截面的维度分割(sample splitting)为三部分,利用第一部分样本进行核范数正则化估计,得到系数矩阵及其特征向量(可理解为因子和载荷)的初始估计。第二步依次利用第二部分和第三部分样本更新对载荷和因子的估计。第三步利用第三部分样本,通过去偏(debiasing)处理得到载荷和因子的最终估计,这为后续建立分布理论提供了基础。此外,苏良军教授强调交换子样本可以产生更有效的估计量。在渐近理论方面,苏良军教授展示了估计量的一致收敛速度、Bahadur表示以及渐近正态性。随后,针对斜率系数是否具有异质性、异质性的来源是否是可加形式,苏良军教授提出了一系列检验统计量,并基于极值理论建立了渐近分布和一致性结果。在证明应用方面,基于中国制造业企业的面板数据对投资方程建模,苏良军教授的研究表明同质性系数的原假设在多个分位点上均被拒绝,这对厘清不完美市场下企业现金流对投资的影响具有重要启示。

为了进一步启发学员,苏良军教授介绍了网络模型和面板模型的区别和联系,并将低秩方法拓展到网络模型,建立了logistic无向网络形成模型,并解读了模型的设定以及潜在的难点。

在讲座最后,学员们踊跃提问,包括时变潜在组群模型的设定和估计中去偏处理的直观解释,低秩方法相比较于C-LASSO、K-means方法来处理潜在组群结构的优势,函数型系数面板模型与双向异质性面板的关系,以及未来可能的研究方向,苏良军教授一一给出了耐心细致的回答。


(文/徐卫超 崔丽媛 图/徐卫超 程子殊)