免费评估 →
CASE · 04 · Real-World Data · Insurance Database

真实世界数据研究:Immortal Time 与时变混杂的系统性防控。

医保数据库样本量大、随访长——这也意味着方法学缺陷会在规模上被放大。时变协变量处理不当、ICD 编码映射错误、队列入组标准不一致,每一项都可能导致系统性偏倚。

8,200
总纳入患者
4
独立队列(多库合并)
时变Cox
核心分析框架
IF 2–5
目标期刊区间
Key Figures · 核心方法学图表

两张图,展示真实世界数据分析的稳健性。

所有图表均为 synthetic illustrative data,由言拓致优内部生成,仅用于方法学路径展示,不指向任何真实患者或客户项目。

敏感性分析汇总森林图 — HR 一致性
Fig 1 · 敏感性分析汇总 · HR 一致性验证
主分析(红色菱形)+ 7 类敏感性分析结论高度一致。负对照结局(意外骨折)HR≈1.01,排除残余混杂系统性解释。E-value 计算量化混杂阈值。
Landmark 时间分层 HR 趋势图
Fig 2 · Landmark 分析 · 时间分层风险比
暴露效应随随访时间延长逐渐增强(HR 从 0.81 降至 0.68),支持剂量-时间响应关系假设。Schoenfeld 残差检验确认比例风险假定已处理。
Challenge · 研究背景与核心挑战

真实世界数据的挑战,90% 来自数据本身的质量。

医保数据库、电子病历(EMR)等真实世界数据(RWD)的方法学挑战与 RCT 截然不同:数据量大但质量参差、ICD 编码存在版本差异和临床使用习惯偏差、合并症记录不完整、以及大量涉及"时间"的偏倚陷阱——Immortal Time Bias、时变混杂、竞争风险。

最容易被 reviewer 抓到的问题有两类:第一,暴露起点(index date)定义不清晰导致 immortal time 进入分析——这会系统性地让暴露组看起来有"保护效应";第二,长期慢性病研究忽视时变协变量——患者在随访期间的合并症、用药、血压等状态会动态变化,如果只取基线值建模,模型的效应估计是有偏的。

本类研究的方法学重点:严格的 ICD 编码映射 + 暴露-随访时间轴对齐 + 多重插补处理大规模缺失 + 时变协变量 Cox 模型 + 4 类敏感性分析(限制暴露时间/亚组/E-value/负对照)。

  • Immortal time bias:暴露窗口与随访起点错位
  • ICD-9/ICD-10 混合编码未统一映射
  • 合并症/用药记录大规模缺失(>20%)
  • 时变协变量仅使用基线值(时间性混杂)
  • 多数据库队列合并时未检验队列间一致性
  • 长随访期未考虑竞争风险事件
Method · 核心分析路径

五步 RWD 分析框架,时间轴第一,模型第二。

01
ICD 编码映射与数据标准化

构建 ICD-9 → ICD-10 双向映射表(含临床常用同义码),逐库核查主诊断、次诊断、手术操作码的编码一致性。输出标准化变量字典 + 每个关键变量在各库中的频率分布对比——频率分布异常往往暗示编码习惯差异,需在方法节说明处理策略。

02
暴露-随访时间轴精确定义

明确三个时间点:①队列入组日期(cohort entry date)②暴露起点(index date,必须 ≥ entry date)③事件发生或删失时间(event/censor date)。entry → index 之间的"等待期"若计入暴露组随访时间,将产生 immortal time bias。使用 landmark analysis 或 time-conditional exposure 定义规避。

03
大规模缺失值处理(MICE 多重插补)

真实世界数据缺失率通常较高(如实验室指标缺失 15–40%)。MICE(多重链式方程插补)生成 10–20 个插补数据集,逐数据集建模后用 Rubin's rules 合并效应量。插补模型中纳入结局变量(避免单调缺失 MAR 假设违反),报告各关键变量缺失率矩阵。

04
时变协变量 Cox 回归

将随访期内动态变化的协变量(血压、用药状态、合并症)处理为时变格式(counting process format:start-stop 数据结构)。时变 Cox 模型使用 R 的 survival 包,tmerge() 函数构建时变数据框。比例风险假定检验仍适用(Schoenfeld 残差),违反则引入时间分层。

05
四类敏感性分析 + 负对照验证

①限制暴露时间窗(仅纳入随访>12个月者消除短期存活偏倚)②不同随访截止时间敏感性②完整案例分析 vs MICE 对比③负对照结局分析(理论上暴露不影响该结局,验证有无残余混杂信号)。E-value 计算并报告,量化残余混杂阈值。

Prevention · Reviewer 质疑预防

真实世界研究 Reviewer 三大高频质疑与预防策略。

基于内部 600+ 项目质疑记录整理,不代表特定期刊或审稿人。

REVIEWER 关于 Immortal Time Bias
The exposure definition requires at least 90 days of continuous medication use, but follow-up begins at cohort entry. Patients who survive the first 90 days are by definition immortal during that period. This immortal time has been incorrectly assigned to the exposed group, potentially creating a spurious protective association.
预防策略:使用"暴露起点 = 满足暴露定义后的时间点"作为随访计时起点(index date approach),或在方法节明确说明如何将 immortal time 归入"未暴露"时段(time-conditional analysis)。在方法节单独一段描述时间轴定义,并用 Figure 直观展示 entry date / index date / event date 三个时间点的关系。
REVIEWER 关于数据库质量与编码误差
The study relies on administrative claims data, which are known to have coding errors and misclassification. The accuracy of the exposure and outcome definitions based on ICD codes has not been validated against medical records. This introduces substantial measurement error that may bias the results in unpredictable directions.
预防策略:在方法节引用该编码定义的既往验证研究(如果存在),或说明本研究采用的是该疾病领域内公认的 ICD 定义算法(附参考文献)。将主要结局的 ICD 编码列表作为附件提供。在讨论局限性中承认编码误差可能性,并说明使用多个诊断码("至少 2 次诊断记录")的设计如何降低假阳性率。
REVIEWER 关于多数据库一致性
The authors combined four separate cohorts from different databases. No assessment of inter-database heterogeneity is provided. Differences in coding practices, patient populations, and data collection methods across databases may compromise the validity of pooled estimates.
预防策略:在汇总分析前先按数据库来源进行分层分析,使用 I² 检验队列间一致性。若各库效应量方向一致,说明合并的临床合理性;若存在异质性,在方法节说明是否使用固定效应或随机效应合并。各库基线特征对比表(Table 1 的扩展版)作为附件提供。
Deliverables · 交付物清单

真实世界研究交付物,从 ICD 映射表到时变 Cox 代码。

FAQ · 常见问题

真实世界研究项目常见问题。

Next Steps · 相关服务

真实世界研究建模之外,这些支持同样关键。

06 / Get Started

把你的研究问题交给方法学。

通常 24 小时内(工作日优先)完成可行性评估,包括样本量、终点选择、可行的统计路径与潜在审稿风险点。

无需付款 · 不限学科 · 方法学先于报价