实证方法笔记 · 案例说明

88 讲共用的案例数据

一份 196 家 A 股 × 6 年面板,把数字普惠金融到企业创新这条研究链上的 70+ 个方法串起来。

这份笔记说明全系列 88 讲共用的案例数据:来自哪里、为什么用它、变量怎么构造、能覆盖哪些方法。 所有方法教程里出现的数字,都是从这份数据真实跑出来的,不是模板占位符。 所以你只要读一次这页,剩下 88 篇都默认沿用——里面不会再重复介绍样本来源。

一、为什么是这份数据

我做这套系列的初衷,是给同学一个「方法换、数据不换」的学习路径。研究生写论文常见的痛苦不是不会算,而是每学一个新方法都要重新找一份数据、重新清洗、重新跑描统——一套循环下来,方法本身的核心思想还没消化就累垮了。

这套系列里所有方法都用同一份面板数据。这样的好处:

  • 看到 Day 04 Hausman 报 chi2(10)=42.91,你能直接和 Day 01 Table 1 里 Patent 的右偏对上号;
  • 看到 Day 38 PSM 的处理组 / 控制组样本量,你能立刻知道这是从 Day 01 那 1,200 obs 里切出来的;
  • 方法之间的对比变得直观:Day 11 OLS / Day 04 Hausman / Day 43 DID 同一组数据跑出来,系数差异是真的「方法选择带来的差异」,不是「数据不同造成的假象」。

二、数据构造

字段口径
来源CSMAR 风格 A 股上市公司面板(结构和量纲与 CSMAR、Wind 公开版一致)
样本期间2015 年 - 2020 年,共 6 年
样本量196 家公司 × 6 年 ≈ 1,200 个公司-年观测
观测单位公司-年(firm × year)
因变量 YPatent = 当年发明专利申请数;后续用 ln(1 + Patent) 进入 OLS / FE 回归
核心解释变量 XDFI = 北大数字普惠金融指数(地级市层面,原始量纲约 165-375;部分烟测输出会展示标准化后的 dfi_index
控制变量ROA、Lev、Size、Growth、Cashflow、TobinQ、Top1、Indep、Age(共 9 个)
分组变量SOE(是否国企,民企 894 obs,国企 306 obs,用于异质性分析)
固定效应firm_id(公司)+ year(年份),可同时控制
处理所有连续变量按年度 1% 双侧缩尾(winsor2 cuts(1 99) by(year))

三、这份数据能覆盖哪些方法

这是为什么我敢用一份数据讲 88 讲:CSMAR 面板 + 一个准外生政策(数字普惠金融指数 2015-2018 大幅扩张)天然支持下面这些方法。

章节能跑的方法
Ch1 入门体检(Day 01-10)描统、相关、VIF、Hausman、Chow(问卷类 Cronbach/EFA/CFA/SEM 用副案例)
Ch2 基准回归(Day 11-24)OLS+FE、Logit(僵尸企业=1)、Tobit、Poisson/NB、分位数、Heckman
Ch3 稳健性礼包(Day 25-33)Placebo、boottest、Oster、winsor 敏感性、Driscoll-Kraay、Newey-West
Ch4 内生性(Day 34-42)IV、Bartik shift-share、PSM、CEM、熵平衡、IPW、DR-IPWRA
Ch5 DID 全家桶(Day 43-55)经典 DID、CSDID、Sun-Abraham、DCDH、BJS、honest DID、合成控制、SDID
Ch6 机制与异质性(Day 56-62)中介、调节、JN 区间、异质性分组、DML、因果森林、Oaxaca
Ch7 面板(Day 63-71)面板单根、Pesaran CD、MG/PMG、系统 GMM、门槛、xtgls、Hausman-Taylor

用副案例的少量方法:

  • 问卷量表类(Day 06-10 Cronbach/Harman/EFA/CFA/SEM、Day 56-58 中介量表版):会用一份真实公开的 CSR/数字化转型问卷(350-500 份),同一份问卷讲完 5-8 讲。
  • 时序类(Day 72-81 ADF/协整/VAR/SVAR/VECM/ARIMA/GARCH):会用央行/Wind 月度宏观(社融、M2、CPI),一份序列贯穿。

四、为什么不用真 CSMAR 原始数据

因为 CSMAR / Wind 是商业付费数据库,没法直接对外发布。同学如果在学校有账号,可以按上面的字段定义自己拉一份,结果会和这套笔记里展示的数字非常接近(量纲、相关性方向、分布形状一致)。

这份「CSMAR 风格」数据是我用真实分布参数生成的:DFI 的量纲、Patent 的右偏、ROA 的均值/sd、SOE 的占比,全部对齐北大原始指数和 A 股公开统计。生成脚本在 marketing/day01_assets/gen_and_analyze.py,可以查看也可以复用。

网页里有些表来自之前的真实烟测目录。烟测流程会做缺失过滤、变量映射和标准化,所以你会看到部分表的有效样本是 720 obs、DFI 区间是标准化后的 -3 到 3 左右。这不是另一套案例,而是同一案例进入建模管线后的分析口径。

五、想拿到这份数据 + do file

这页下面的 csmar_innovation_realistic.csv、生成脚本和各方法资产都已经放在仓库里。 你可以直接按每一讲的代码重跑,核对结果表和案例图是否一致,这比看截图更能检验你是否真的跑通了方法。

← 返回方法笔记