CASE · 01 · Retrospective Cohort

回顾性队列研究:PSM + Cox 全流程方法学拆解。

大型多中心回顾性队列的核心挑战不是建模复杂度,而是选择偏倚与混杂控制的严谨性。一旦 reviewer 发现 immortal time bias 或 collider 调整错误,补救成本极高。

2,840

纳入患者(多中心汇总)

60mo

中位随访时间

PSM+Cox

核心分析框架

IF 2–5

目标期刊区间

Key Figures · 核心方法学图表

三张图,看完整方法学质控链。

所有图表均为 synthetic illustrative data,由言拓致优内部生成,仅用于方法学路径展示,不指向任何真实患者或客户项目。

Fig 1 · Kaplan-Meier 生存曲线
PSM 1:1 配对后暴露组与对照组无事件生存概率对比。含风险表(at-risk table)与 log-rank p 值。配对后基线 SMD 全部 <0.10。

Fig 2 · PSM 配对质量 · Love Plot
10 个基线协变量配对前后标准化均值差(SMD)对比。配对后全部变量 SMD <0.10,达到基线可比标准。红线为 SMD=0.1 阈值。

Fig 3 · 预设亚组分析 · Forest Plot
PSM 配对后 Cox HR 在 5 类预设亚组中的一致性验证。点大小代表各亚组样本量,红色菱形为整体效应量。

Challenge · 研究背景与核心挑战

选择偏倚与混杂,才是队列研究被拒的主因。

大型多中心回顾性队列研究最常见的发表障碍,不是样本量不够大,而是方法学层面的三类偏倚未被有效控制:选择偏倚(暴露组与对照组基线不可比)、测量偏倚(各中心暴露/结局定义不一致)和混杂偏倚(未区分 confounder、mediator 与 collider 的调整策略)。

reviewer 针对队列研究的质疑高度集中在两个问题:第一,"你用 PSM 配对后,两组基线真的可比了吗?匹配后 SMD 是多少?"。第二,"你调整了这么多变量,有没有考虑 immortal time bias?暴露起点和随访起点是否一致?"。这两类问题如果在建模前没有预设处理策略,投稿后临时补救往往需要重新清洗数据或补充分析,耗时 2–6 周。

本类研究的方法学重点:暴露定义的时间窗精确化 + PSM 配对质量评估 + DAG 驱动的混杂调整 + 至少 2 类敏感性分析(IPTW / 亚组 / E-value)。

Immortal time bias:暴露起点晚于随访起点
PSM 配对后 SMD >0.1 未说明
Collider 被纳入调整集引入新偏倚
多中心暴露/结局编码不统一
竞争风险未处理(对死亡竞争事件)
亚组分析未预设、多重比较未校正

Method · 核心分析路径

五步分析框架,每步都有质控节点。

数据标准化与暴露定义

多中心数据汇总时,逐中心核查 ICD 编码版本差异、药物暴露定义时间窗、结局终点的判定标准。暴露起点(index date)必须早于随访计时起点,避免 immortal time bias。输出:统一变量字典 + 数据质量核查报告。

DAG 构建与混杂变量筛选

在建模前使用 DAGitty 绘制有向无环图,识别混杂因子(调整)、中介变量(不调整或单独分析)、碰撞偏倚(不调整)。基于最小充分调整集(MSAS)选择协变量,而非把所有可测变量都纳入。

PSM 1:1 配对 + 质量评估

采用 caliper=0.02 的最近邻配对,配对后逐变量计算标准化均值差(SMD),目标 SMD<0.1。Love plot 作为图表附件。若 SMD 仍然偏高,切换 caliper 参数或改用 IPTW 替代方案并在方法节说明。

Cox 比例风险模型与时间-事件分析

主分析:配对后 Cox 回归(cluster 修正SE),报告 HR + 95% CI + 时间-事件曲线(Kaplan-Meier)。检验比例风险假定(Schoenfeld 残差检验),若违反则引入时依协变量或限制时间窗分层分析。

敏感性分析与 E-value 报告

至少执行 3 类敏感性分析:IPTW 逆概率加权(替代PSM)、主要结局定义宽松/严格版本对比、完整案例分析 vs MICE 多重插补对比。E-value 计算量化残余混杂的最小强度阈值,在讨论节报告。

Prevention · Reviewer 质疑预防

队列研究 Reviewer 三大高频质疑与预防策略。

基于内部 600+ 项目质疑记录整理,不代表特定期刊或审稿人。

REVIEWER 关于 Immortal Time Bias

The authors defined exposure from the date of first prescription, but the follow-up time appears to begin at cohort entry, which may predate the index date. This immortal time — during which the outcome cannot occur — inflates the time at risk in the exposed group and biases the hazard ratio toward a protective effect.

预防策略:在方法节明确说明"暴露起点(index date)= 首次满足暴露定义的时间点,随访计时起点 = index date"。在方法节单独一段说明 immortal time 的处理方式,并在数据标准化阶段用 SQL/R 代码核查每例患者的 index date ≤ 随访起点。CONSORT/STROBE 流程图中的时间轴标注要与方法节文字完全一致。

REVIEWER 关于 PSM 配对质量

After propensity score matching, the authors claim the two groups are comparable, but no standardized mean differences (SMD) are reported for individual covariates. It is unclear whether residual imbalance remains after matching, especially for key confounders such as disease severity.

预防策略:在表 1 中为每个协变量报告配对前后的 SMD,并以 Love plot 作为附件直观展示。若某关键变量 SMD 配对后仍 >0.1,在方法节说明原因(如该变量分布极端偏斜)和补充分析。IPTW 替代分析作为敏感性结果在附件中提供,正文引用 "consistent with primary PSM analysis"。

REVIEWER 关于竞争风险

The primary outcome is cardiovascular mortality. However, all-cause mortality is a competing event that was not accounted for. Standard Cox regression in this setting may overestimate the cumulative incidence of the primary outcome, particularly in older populations with high competing event rates.

预防策略:在结局定义部分列出所有潜在竞争事件(如全因死亡、出院后失访),并说明主分析是否采用竞争风险模型(Fine-Gray 或 cause-specific Cox)。若使用标准 Cox,在讨论局限性中说明在本研究人群中竞争事件率低(提供数字支撑),或在敏感性分析中追加竞争风险模型结果对比。

Deliverables · 交付物清单

队列研究建模交付物,可直接用于投稿附件。

数据质量核查报告逐中心变量缺失率矩阵、ICD 编码映射表、暴露定义时间窗核查日志。可作为"Data Availability Statement"的配套文件附于论文。
DAG 因果图(DAGitty 源文件 + 高清导出) 说明混杂因子选择依据,最小充分调整集标注。可作为在线附件提交给 Epidemiology / IJE 等期刊,也可在方法节正文引用。
PSM 配对脚本 + Love Plot R 语言(MatchIt 包)配对代码,含配对前后 SMD 表格和 Love Plot 图。Love Plot 可直接作为附件 Figure S1 提交。
Cox 回归建模脚本 + 图表包主分析 + 亚组 + 敏感性分析完整代码(R/Stata/SAS 任选),Kaplan-Meier 曲线 + 森林图(亚组) + Schoenfeld 残差图,300 DPI TIFF 格式。
STROBE 报告规范对照表 22 条逐项核查,标注对应正文位置和页码,可直接作为投稿 Reporting Checklist 附件提交。

FAQ · 常见问题

队列研究项目常见问题。

我们已经有数据了,但暴露定义在各中心之间不统一,还能做吗?
可以,但需要在建模前花时间做数据标准化——这是我们在"协作启动版"阶段的首项工作。我们会输出统一变量字典和数据质量核查报告,再在各方书面确认后推进建模。若部分中心的关键变量缺失率过高(如>30%),我们会在评估时如实告知是否影响分析可行性。
PSM 配对后样本量只剩下原来的一半,会不会导致检验效能不足?
这是合理的顾虑。我们会在匹配前进行 power 核算——若配对后预期事件数无法支撑 Cox 分析(一般要求 EPV≥10),我们会建议改用 IPTW(保留全部样本、用加权方法平衡基线),或在报告中明确说明研究的 power 限制。这两种方案在方法节都可以有充分的文献依据。
多中心数据涉及隐私,你们如何处理?
我们要求客户在提交数据前完成个人信息脱敏处理(去除姓名、身份证号、住院号等直接识别信息)。脱敏后的分析数据通过 HTTPS 加密通道传输,存储于中国大陆合规云环境,只有参与该项目的负责人可以访问。项目结束后按合同约定时限删除中间数据。
结果出来后,如果期刊 reviewer 要求做额外的敏感性分析,需要额外收费吗?
"全流程托管"和"多中心/RCT"套餐内,范围内的 reviewer 统计学问题修回最多 3 次,不额外收费。范围界定包括:调整模型参数、追加预设敏感性分析变体、补充图表。非预设的新分析(如 reviewer 要求做原设计中未涉及的子数据库外部验证)属于范围外服务,需单独报价。"协作启动版"套餐不含修回保障。

Next Steps · 相关服务