Method 01 · data_cleaning
数据清洗
先把数据质量和变量关系讲清楚
数据清洗 的 Markdown 风格教程:基于共用 CSMAR 风格案例生成实际代码、结果表和案例图。
一、数据清洗是什么?
这页是 数据清洗 的方法文档。所有表格和图都由 marketing/method_case_assets/generate_assets.py 从同一份 csmar_innovation_realistic.csv 生成,避免用占位图充当教程。重点是确认样本口径、变量分布、相关关系和诊断指标是否足以支撑后续模型。
二、按这个案例走一遍
开始前先确认
- 先确认一行代表什么。本案例一行是一个公司在某一年的观测,也就是 firm-year。
- 先确认主键是否唯一。公司代码 stkcd 加 year 应该只出现一次。
- 先确认核心变量是否存在:patent_count 是因变量,dfi_index 是核心解释变量。
- 先确认缺失和极端值。不要等回归表出来以后才发现样本少了一半。
操作顺序
| 步骤 | 你在做什么 | 做到什么程度算对 |
|---|---|---|
| 1. 导入数据 | 把 CSV 读进 Stata,并确认第一行是不是变量名。 | 变量名能正常显示,没有整列被读成字符串。 |
| 2. 建面板 ID | 用公司代码生成 firm_id,再告诉 Stata firm_id 和 year 是面板结构。 | xtset 后不应该提示 repeated time values。 |
| 3. 查重复 | 检查 stkcd-year 有没有重复行。 | 重复数为 0 才能安心进入下一步。 |
| 4. 查缺失 | 检查 Y、X 和控制变量的缺失。 | 缺失集中在哪几个变量,要在样本说明里交代。 |
| 5. 导出清洗摘要 | 把缺失、重复、样本量这些信息保存成 CSV。 | 这张摘要会成为后面所有模型的底稿。 |
代码逐行解释
| 代码/命令 | 这行在干什么 |
|---|---|
| import delimited | 读入 CSV。小白要注意 encoding,不然中文变量或路径可能乱码。 |
| gen ln_patent1 = ln(1 + patent_count) | 把专利计数取 log。加 1 是因为有些企业 patent_count 为 0,直接 ln(0) 不存在。 |
| egen firm_id = group(stkcd) | 把股票代码转成连续数字 ID,方便 xtset 和面板命令使用。 |
| xtset firm_id year | 声明面板结构。后面 FE、RE、Hausman 都依赖这一步。 |
| duplicates report stkcd year | 检查同一公司同一年有没有多行。重复行会让面板模型含义变乱。 |
| misstable summarize | 汇总缺失。缺失不是自动坏事,但必须知道缺在哪里。 |
结果表怎么读
| 格子 | 读法 |
|---|---|
| 缺失单元格 | 如果是 0,说明本页检查的核心变量和控制变量没有缺失;如果很大,先不要跑回归。 |
| 公司-年份重复 | 如果不是 0,先回原始数据合并或去重;不要用重复面板直接 xtreg。 |
| Patent-DFI corr | 这是清洗后的粗相关,只用来确认变量方向和量级,不是因果证据。 |
最容易写错的地方
- 不要把“能跑出回归”当成“数据清洗完成”。回归能跑,不代表样本口径是对的。
- 不要先删缺失再描述样本,却不说明删了多少。论文里 N 为什么变小需要能追溯。
- 不要把字符串年份、字符串公司代码直接丢进面板命令;先确认类型和主键。
自己复现时要做到
复现时先只跑清洗页,不要急着跑回归。你能清楚说出原始 N、有效 N、重复数、缺失集中变量,再进入 Day 02。
三、先看这个案例的结论
- 缺失单元格 = 0;核心变量与控制变量范围内。
- 公司-年份重复 = 24;面板键检查。
- Patent-DFI corr = 0.0882;清洗后核心相关。
- 这些数字来自页面里的结果表;写论文时先解释数值含义,再讨论理论含义。
四、案例口径
| 字段 | 口径 |
|---|---|
| 数据 | CSMAR 风格 A 股企业创新面板 |
| 原始样本 | 196 家上市公司,2015-2020 年,约 1200 个公司-年观测;各方法有效样本以本页输出表 N 为准 |
| 因变量 | patent_count;回归页通常使用 ln(1 + patent_count) |
| 核心解释变量 | dfi_index,数字普惠金融指数;部分真实烟测输出展示的是标准化后的 dfi_index |
| 控制变量 | roa、lev、size、growth、cashflow、tobinq、top1、dual、board、indep、soe、age |
| 输出文件 | data_cleaning_step_summary.csv |
| 角色要求 | 无硬性角色要求 |
| 依赖包 | 无额外 Stata 社区包要求 |
五、实际代码
下面是本页对应的最小可复现 Stata 代码。生产环境里 empirical-wizard 会在此基础上处理变量映射、输出校验、失败诊断和报告装配。
import delimited "$DATA_PATH", clear varnames(1) encoding(UTF-8)
gen ln_patent1 = ln(1 + patent_count)
egen firm_id = group(stkcd)
xtset firm_id year
global y ln_patent1
global count_y patent_count
global x dfi_index
global controls roa lev size growth cashflow tobinq top1 dual board indep soe age
gen post = year >= 2018
bysort firm_id: egen pre_dfi = mean(cond(year < 2018, dfi_index, .))
quietly summarize pre_dfi, detail
gen treat = pre_dfi >= r(p50)
gen did = treat * post
gen high_patent = patent_count > 2
gen running_dfi = dfi_index - 260
gen rdd_treat = running_dfi >= 0
duplicates report stkcd year
misstable summarize patent_count dfi_index $controls
summarize patent_count dfi_index $controls
export delimited using "$JOB_DIR/data_cleaning_step_summary.csv", replace
六、实际输出表
这张表就是本方法页使用的案例输出文件,保存在 marketing/method_case_assets/data_cleaning/result.csv。
| 指标 | 数值 | 解释 |
|---|---|---|
| 样本 | 1200 obs / 196 firms / 2015-2020 | 来自共用案例 CSV |
| 因变量 | ln(1 + patent_count) | 企业创新产出 |
| 核心解释变量 | dfi_index | 数字普惠金融指数 |
| 输出文件 | data_cleaning_step_summary.csv | empirical-wizard 对应方法产物 |
| 缺失单元格 | 0 | 核心变量与控制变量范围内 |
| 公司-年份重复 | 24 | 面板键检查 |
| Patent-DFI corr | 0.0882 | 清洗后核心相关 |
七、案例图
这是一张由同一份案例数据生成的页面内诊断图。

八、论文里怎么写
本文在共用企业面板样本上报告数据清洗,核心输出见 data_cleaning_step_summary.csv。结果解释时同时关注样本口径、变量构造、系数方向、标准误和适用前提,避免只凭单个 p 值完成方法选择。
九、检查清单
- 确认本页使用的因变量、核心解释变量、控制变量与论文主模型一致。
- 先看表格里的样本口径,再看系数、p 值或诊断指标。
- 代码里的输出文件名要能对应网页展示的结果表。