案例说明 · 88 讲共用数据

这份笔记说明全系列 88 讲共用的案例数据：来自哪里、为什么用它、变量怎么构造、能覆盖哪些方法。所有方法教程里出现的数字，都是从这份数据真实跑出来的，不是模板占位符。所以你只要读一次这页，剩下 88 篇都默认沿用——里面不会再重复介绍样本来源。

一、为什么是这份数据

我做这套系列的初衷，是给同学一个「方法换、数据不换」的学习路径。研究生写论文常见的痛苦不是不会算，而是每学一个新方法都要重新找一份数据、重新清洗、重新跑描统——一套循环下来，方法本身的核心思想还没消化就累垮了。

这套系列里所有方法都用同一份面板数据。这样的好处：

看到 Day 04 Hausman 报 chi2(10)=42.91，你能直接和 Day 01 Table 1 里 Patent 的右偏对上号；
看到 Day 38 PSM 的处理组 / 控制组样本量，你能立刻知道这是从 Day 01 那 1,200 obs 里切出来的；
方法之间的对比变得直观：Day 11 OLS / Day 04 Hausman / Day 43 DID 同一组数据跑出来，系数差异是真的「方法选择带来的差异」，不是「数据不同造成的假象」。

字段	口径
来源	CSMAR 风格 A 股上市公司面板（结构和量纲与 CSMAR、Wind 公开版一致）
样本期间	2015 年 - 2020 年，共 6 年
样本量	196 家公司 × 6 年 ≈ 1,200 个公司-年观测
观测单位	公司-年（firm × year）
因变量 Y	Patent = 当年发明专利申请数；后续用 `ln(1 + Patent)` 进入 OLS / FE 回归
核心解释变量 X	DFI = 北大数字普惠金融指数（地级市层面，原始量纲约 165-375；部分烟测输出会展示标准化后的 `dfi_index`）
控制变量	ROA、Lev、Size、Growth、Cashflow、TobinQ、Top1、Indep、Age（共 9 个）
分组变量	SOE（是否国企，民企 894 obs，国企 306 obs，用于异质性分析）
固定效应	firm_id（公司）+ year（年份），可同时控制
处理	所有连续变量按年度 1% 双侧缩尾（winsor2 cuts(1 99) by(year)）

这是为什么我敢用一份数据讲 88 讲：CSMAR 面板 + 一个准外生政策（数字普惠金融指数 2015-2018 大幅扩张）天然支持下面这些方法。

章节	能跑的方法
Ch1 入门体检（Day 01-10）	描统、相关、VIF、Hausman、Chow（问卷类 Cronbach/EFA/CFA/SEM 用副案例）
Ch2 基准回归（Day 11-24）	OLS+FE、Logit（僵尸企业=1）、Tobit、Poisson/NB、分位数、Heckman
Ch3 稳健性礼包（Day 25-33）	Placebo、boottest、Oster、winsor 敏感性、Driscoll-Kraay、Newey-West
Ch4 内生性（Day 34-42）	IV、Bartik shift-share、PSM、CEM、熵平衡、IPW、DR-IPWRA
Ch5 DID 全家桶（Day 43-55）	经典 DID、CSDID、Sun-Abraham、DCDH、BJS、honest DID、合成控制、SDID
Ch6 机制与异质性（Day 56-62）	中介、调节、JN 区间、异质性分组、DML、因果森林、Oaxaca
Ch7 面板（Day 63-71）	面板单根、Pesaran CD、MG/PMG、系统 GMM、门槛、xtgls、Hausman-Taylor

用副案例的少量方法：

问卷量表类（Day 06-10 Cronbach/Harman/EFA/CFA/SEM、Day 56-58 中介量表版）：会用一份真实公开的 CSR/数字化转型问卷（350-500 份），同一份问卷讲完 5-8 讲。
时序类（Day 72-81 ADF/协整/VAR/SVAR/VECM/ARIMA/GARCH）：会用央行/Wind 月度宏观（社融、M2、CPI），一份序列贯穿。

因为 CSMAR / Wind 是商业付费数据库，没法直接对外发布。同学如果在学校有账号，可以按上面的字段定义自己拉一份，结果会和这套笔记里展示的数字非常接近（量纲、相关性方向、分布形状一致）。

这份「CSMAR 风格」数据是我用真实分布参数生成的：DFI 的量纲、Patent 的右偏、ROA 的均值/sd、SOE 的占比，全部对齐北大原始指数和 A 股公开统计。生成脚本在 marketing/day01_assets/gen_and_analyze.py，可以查看也可以复用。

网页里有些表来自之前的真实烟测目录。烟测流程会做缺失过滤、变量映射和标准化，所以你会看到部分表的有效样本是 720 obs、DFI 区间是标准化后的 -3 到 3 左右。这不是另一套案例，而是同一案例进入建模管线后的分析口径。

这页下面的 csmar_innovation_realistic.csv、生成脚本和各方法资产都已经放在仓库里。你可以直接按每一讲的代码重跑，核对结果表和案例图是否一致，这比看截图更能检验你是否真的跑通了方法。