Day 09 · 手写教程
验证性因子分析 CFA
拟合指数不是凑够几个就行
CFA 是什么?
CFA 是验证性因子分析。它和 EFA 的区别是:EFA 让数据帮你探索结构,CFA 则要求你先提出结构,再用数据检查这个结构是否合理。也就是说,CFA 不是用来“找因子”的,而是用来验证你已经提出的测量模型。
这个案例怎么理解?
本页用两个派生潜变量演示:finance 由 ROA、Cashflow、TobinQ、Lev 等财务变量反映,governance 由 Top1、Indep、Board 等治理变量反映。案例输出显示 finance 到创新的路径为 0.1266,governance 到创新的路径为 0.2058,模型 R² 为 0.0777。
严格来说,CFA 页面更应该重点看测量路径和拟合指标;这里展示路径数值,是为了让读者理解潜变量进入后续 SEM 的方式。
正式论文怎么做?
先画测量模型:每个潜变量由哪些题项测量。然后估计载荷,看标准化载荷是否合理,再看 CFI、TLI、RMSEA、SRMR 等拟合指标。如果测量模型很差,不应该继续解释结构路径。
论文里怎么写?
可以写:本文进一步采用验证性因子分析检验量表结构。结果显示,各题项在预设潜变量上的载荷方向与理论一致,整体拟合指标处于可接受范围,说明测量模型具有一定合理性,可进入后续结构路径分析。
常见错误
不要为了拟合指标好看随意加残差相关。修改 CFA 模型必须有理论理由,否则就是用数据反复调参。
本页案例代码和输出
下面这部分是本教程对应的实际案例材料,方便你把前面的解释和真实输出对上。
Stata 代码
import delimited "$DATA_PATH", clear varnames(1) encoding(UTF-8)
gen ln_patent1 = ln(1 + patent_count)
egen firm_id = group(stkcd)
xtset firm_id year
global y ln_patent1
global count_y patent_count
global x dfi_index
global controls roa lev size growth cashflow tobinq top1 dual board indep soe age
gen post = year >= 2018
bysort firm_id: egen pre_dfi = mean(cond(year < 2018, dfi_index, .))
quietly summarize pre_dfi, detail
gen treat = pre_dfi >= r(p50)
gen did = treat * post
gen high_patent = patent_count > 2
gen running_dfi = dfi_index - 260
gen rdd_treat = running_dfi >= 0
sem (finance -> roa lev cashflow) (governance -> top1 indep board), method(mlmv)
estat gof, stats(all)
export delimited using "$JOB_DIR/cfa_results.csv", replace
输出表
| 指标 | 数值 | 解释 |
|---|---|---|
| 样本 | 1200 obs / 196 firms / 2015-2020 | 来自共用案例 CSV |
| 因变量 | ln(1 + patent_count) | 企业创新产出 |
| 核心解释变量 | dfi_index | 数字普惠金融指数 |
| 输出文件 | cfa_results.csv | empirical-wizard 对应方法产物 |
| finance -> ln Patent | 0.1266 | 由 ROA/Cashflow/TobinQ/Lev 派生的财务潜变量路径 |
| governance -> ln Patent | 0.2058 | 由 Top1/Indep/Board 派生的治理潜变量路径 |
| DFI direct path | 0.0032 | 控制两个潜变量后的直接路径 |
| 模型 R² | 0.0777 | 教学路径模型的解释度 |
案例图

写作检查
本文使用验证性因子分析 CFA对案例派生题项进行量表/潜变量诊断。结果见 cfa_results.csv。若信度、载荷或拟合指标未达到常用阈值,后续结构路径不宜直接作为强证据解释。
- 确认本页使用的因变量、核心解释变量、控制变量与论文主模型一致。
- 先看表格里的样本口径,再看系数、p 值或诊断指标。
- 代码里的输出文件名要能对应网页展示的结果表。
- 先报告信度/效度,再解释潜变量路径。
- 不要把案例派生题项当成真实问卷结论。