IPUMS USA Harmonized Microdata // ipums_usa

IPUMS USA 将美国人口普查、ACS 和部分历史样本整理成跨年可比的 harmonized microdata。它不是单一年份数据,而是统一变量名、标签和样本权重的抽取平台,适合跨年劳动、收入、教育、移民、住房和人口结构研究。

数据来源:IPUMS, University of Minnesota · 版本:harmonized extracts — rolling · 更新:rolling · 官方页面

常用研究方向

IPUMS USA Harmonized Microdata 共收录 18 个变量——其中常被用作因变量的 3 个、用作核心自变量的 3 个、用作控制变量的 13 个。本数据集常见的研究方向包括:教育回报与工资收入、群体就业差异。

教育回报与工资收入:因变量 INCWAGE,核心自变量 EDUC,建议控制 AGESEXRACE

群体就业差异:因变量 EMPSTAT,核心自变量 EDUCSEXRACE,建议控制 AGESTATEFIPYEAR

复杂抽样设计 · svyset 参数

抽样权重 (pweight)PERWT
来源IPUMS USA variable documentation

Stata svyset 命令:

svyset _n [pweight=PERWT]

注:个人层面分析使用 PERWT;家庭层面分析使用 HHWT。部分 IPUMS extract 还可包含 STRATA / CLUSTER 或 replicate weights,具体以抽取变量为准。

variables · 变量清单(18 个)

变量名标签类型/角色数据文件说明 · 关键词
YEAR调查/普查年份
Census / survey year
identifier / timeextract样本年份,跨年分析核心时间变量
year年份
SAMPLEIPUMS 样本代码
IPUMS sample identifier
identifier / identifierextractIPUMS 样本标识,用于区分 ACS、census 和历史样本
sample样本
SERIAL家庭序号
Household serial number
identifier / identifierextract家庭/住户编号,与 PERNUM 共同识别个人
householdid家庭
PERNUM家庭内个人序号
Person number within household
identifier / identifierextract家庭内个人序号
personid个人
HHWT家庭权重
Household weight
continuous / controlextract家庭层面权重,家庭/住房变量估计需使用
weight家庭权重
PERWT个人权重
Person weight
continuous / controlextract个人层面权重,个人收入、教育、就业等估计需使用
weight个人权重
STATEFIP州 FIPS 代码
State FIPS code
categorical / controlextract州代码;跨年分析应注意州边界和样本可识别地理层级
statefips
AGE年龄
Age
continuous / controlextract年龄,部分样本有 top-code
age年龄
SEX性别
Sex
binary / controlextractIPUMS harmonized sex variable
sexgender性别
RACE种族
Race
categorical / controlextract跨年统一后的种族分类;详细口径随历史时期变化
race种族
HISPAN西语裔身份
Hispanic origin
categorical / controlextractHispanic origin harmonized variable
hispanicethnicity
EDUC教育程度
Educational attainment
ordinal / iv,controlextract教育程度分类变量;跨年可比但类别含义需看 IPUMS comparability notes
education学历教育
EDUCD教育程度详细码
Detailed educational attainment
ordinal / iv,controlextract教育程度详细分类,适合构造高中/本科/研究生等虚拟变量
educationdetailed
EMPSTAT就业状态
Employment status
categorical / dv,controlextract就业、失业和非劳动力状态
employment就业
LABFORCE是否在劳动力
Labor force status
binary / controlextract是否属于劳动力人口,常作为就业/工资样本筛选条件
labor force劳动力
INCWAGE工资收入
Wage and salary income
continuous / dvextract工资和薪金收入;需处理无收入、top-code、通胀平减和样本筛选
wageincome工资
FTOTINC家庭总收入
Family total income
continuous / dv,controlextract家庭总收入,跨年分析应按 CPI 平减并处理 top-code
family income家庭收入
UHRSWORK通常每周工作小时
Usual hours worked per week
continuous / iv,controlextract通常每周工作小时,工资率构造常用
hours工作小时

把变量直接用起来

变量百科是开放查询入口;实证向导把同样的码本接到代码生成里——上传你的 ipums_usa 数据,系统自动识别变量并套用对应的清洗规则、推荐研究设计、跑回归、出 Word 报告。