免费评估 →
SERVICE · 02 · Statistical Modelling

不只是 P 值,而是可过审稿的因果推断链。

PSM / Cox / Meta / RCS / 网状 Meta / 影像组学核心建模,含敏感性分析 + MICE 多重插补。所有代码随交付物打包,可直接作为方法学附件提交期刊。

5步
标准化建模 SOP
12类
核心方法学覆盖
100%
代码可回溯 · 可复现
双盲
质控复算 · 每个项目标配
Pipeline · 建模全景

7 步端到端,原始数据到投稿 Manuscript。

从 Data Acquisition 到 Report & Figures,每一步对应 R / SPSS / Stata / SAS 脚本与决策记录。红色节点(Exploratory · Primary Modelling · Report)必须由方法学负责人主导,质控人独立复算。

7 标准化步骤
3 关键决策点
100% 代码可回溯
统计分析全流程 7 步管线
01 Acquisition → 02 Cleaning → 03 EDA → 04 Modelling → 05 Validation → 06 Sensitivity → 07 Report
Process · 建模流程

从数据清洗到可复现脚本,5 步标准化。

  1. 01
    数据清洗与探索性分析
    异常值检测(IQR 法:< Q1-1.5×IQR 或 > Q3+1.5×IQR,或 3σ/Grubbs 检验),缺失值模式分析(首先检验数据是否符合 MCAR/MAR/MNAR 机制假设,使用 Little 的 MCAR 检验),变量分布检验(连续变量正态性:Shapiro-Wilk 或 KS 检验;分类变量频次表;连续变量密度图与 QQ 图)。类别变量检查编码一致性(如不同中心的"是/否"编码是否统一),连续变量检查物理合理范围(如年龄 <0 或 >120,BMI <10 或 >80)。交付:数据清洗日志(含每个处理决策的依据)+ 缺失模式热图 + 基线变量描述统计 Table 1 初稿。
  2. 02
    缺失值处理(MICE 多重插补)
    首先确认缺失机制假设(MCAR:完全随机缺失;MAR:依赖已观测变量的随机缺失;MNAR:缺失与未观测值本身相关)。MCAR 机制下可使用完整数据集(complete case analysis);MAR 机制下推荐 MICE 多重插补(m=5–10 次,Rubin 法则合并);MNAR 机制下需要额外的 pattern mixture model 或 selection model 敏感性分析。MICE 实现时,连续变量使用 PMM(预测均值匹配,保留非正态分布形状),二分变量使用 logistic 插补,有序变量使用 proportional odds model。插补后输出收敛诊断图,比较插补前后 Table 1 基线特征差异,并以"完整数据集 vs MICE 插补数据集"结果对比作为敏感性分析之一。
  3. 03
    主分析建模(按 SAP 严格执行)
    按预先确认的统计分析计划(SAP)执行主分析:Cox 比例风险模型需先通过 Schoenfeld 残差检验 PH 假设,若违背则改用时依协变量(time-dependent covariate)模型或分层 Cox。PSM 建模含 logistic 倾向得分估计 + 匹配(1:1 或 1:N,最近邻匹配 + 卡钳 0.2 SD)+ 匹配后 SMD<0.1 验证,同时可选 IPTW(稳定权重 SW + 权重截尾)。RCS 限制性立方样条含非线性检验 P 值(Wald 检验)+ 全局 P 值 + 节点数选择(Harrell 推荐 5 个节点,分位数位置)+ 暴露-反应曲线图。所有交互项均为预设(SAP 中列明),不做事后多重比较。亚组分析附交互 P 值,不单独在亚组中做假设检验。
  4. 04
    敏感性分析与亚组
    预设敏感性分析不少于 3 类(在 SAP 中提前列明),常见类型包括:①暴露重新定义(如改变暴露期起点定义);②不同随访窗口(如延长/缩短随访截止时间);③完整数据集 vs 插补数据集对比;④极端假设敏感性(E-value:未测量混杂需要多强才能使效应估计无效);⑤阳性对照分析(用已知有效的干预做对照,验证方法学框架)。亚组分析:预设亚组分层变量在 SAP 中注明,Forest Plot 展示各亚组 HR/OR 及 95% CI,附亚组间交互 P 值(而非各亚组的独立 P 值,避免多重比较被夸大),p for interaction 报告位置在 Forest Plot 图注中。
  5. 05
    质控复算与代码打包
    主负责人完成全部建模后,独立质控人(不查看主负责人代码和中间文件)从原始数据开始独立执行全部核心分析——独立读取数据、独立编写清洗和建模脚本、独立输出图表和回归表格。两套结果逐指标比对(小数点后 4 位),差异 > 0.001 的指标须溯源:确认是数据处理路径差异还是模型实现方式差异,统一后形成最终结论。通过质控后,打包交付:主线代码脚本(注释完整)+ 数据字典(变量名、定义、单位、编码)+ 出版级图表(PDF + TIFF,≥300 dpi)+ Methods 节英文文本(软件版本齐全)+ 结果表格(可直接复制至投稿文档)。
Methods · 核心方法学

12 类建模方法,每类对应 reviewer 高频质疑。

红框标注为最高频使用方法。所有方法含独立质控复算,代码与决策记录随项目交付。

Causal Inference · 因果推断
PSM 倾向得分匹配
PSM 通过匹配处理组与对照组的倾向得分分布减少混杂。标配:1:1–1:4 最近邻匹配 + 卡钳(0.2 SD)+ 匹配后 SMD 全部 <0.1。含 Love Plot 可视化 + Bootstrap 方差估计 + 卡钳宽度敏感性分析。输出匹配前后 Table 1(含 SMD 列)。
Reviewer 常问:匹配比例依据?SMD 如何验证?有无敏感性分析?
Causal Inference · 因果推断
IPTW 逆概率加权
倾向得分倒数加权,保留全部样本创建伪随机化数据集。标配:稳定权重(SW = marginal/conditional)+ 极端权重截尾(1%/99%)+ 加权后 SMD 验证。可与竞争风险模型联用(如 IPTW weighted Fine-Gray)。
Reviewer 常问:为何选 IPTW 而非 PSM?极端权重如何处理?
Survival Analysis · 生存分析
Cox PH 生存分析
暴露-时间-事件关系的核心模型。标配:Schoenfeld 残差检验 PH 假设(p>0.05 方可用 Cox);PH 假设违背时用时依协变量或分层 Cox。含 KM 曲线 + log-rank 检验 + 中位生存时间(95% CI)+ 多因素 Cox 回归表格。
Reviewer 常问:比例风险假设是否验证?时依协变量如何处理?
Survival Analysis · 竞争风险
竞争风险 Fine-Gray
存在竞争事件时(如肿瘤复发 vs 死亡),直接建模 cause-specific cumulative incidence function。含 Gray 检验 + SHR(subdistribution hazard ratio)报告,并与 cause-specific Cox 结果对比作为敏感性分析。输出累积发生率曲线图(stacked 或分组对比)。
Reviewer 常问:为何不用 cause-specific Cox?Gray 检验 P 值是多少?
Non-linearity · 非线性
RCS 限制性立方样条
检验连续暴露与结局之间的非线性剂量-反应关系。标配:3–5 个节点(Harrell 推荐分位数位置)+ 非线性检验 Wald P 值 + 全局检验 P 值 + 暴露-反应曲线图(含 95% CI 带)。含参考值选择说明(中位数或特定临床意义阈值)。
Reviewer 常问:节点数如何选?非线性检验 P 值?参考值选择依据?
Prediction Model · 预测模型
ROC / DCA 预测模型
二元或生存结局预测模型,含 AUC/C-index + Hosmer-Lemeshow 校准检验 + DCA 决策曲线分析。标配:列线图(Nomogram)+ 10-fold 交叉验证 AUC + Bootstrap 1000 次内部验证(含乐观校正 AUC)。TRIPOD 报告规范对照。
Reviewer 常问:仅有 AUC 不够,DCA 在哪里?模型过拟合如何验证?
Meta Analysis · 系统综述
Meta 分析
固定效应 vs 随机效应选择(I² + Cochran Q 检验 + τ² 异质性量化)、Begg / Egger 发表偏倚检验、亚组分析 + Meta 回归(可解释异质性来源)、逐步剔除(leave-one-out)敏感性分析、GRADE 证据质量分级。R metafor / meta 包,出版级 Forest Plot。
Reviewer 常问:异质性来源如何解释?GRADE 分级结果?Meta 回归变量依据?
Network Meta · 网状Meta
网状 Meta 分析
多干预间接比较框架,node-splitting 一致性检验(直接 vs 间接证据),SUCRA 排序概率(概率最优/最差),league table(成对相对效果矩阵),漏斗图对称性检验(发表偏倚)。R gemtc / netmeta 包。
Reviewer 常问:直接与间接证据一致性验证?某干预 SUCRA 排名的不确定性?
Mendelian Rand. · 孟德尔随机化
孟德尔随机化
两样本 MR(IVW 主分析)+ 敏感性(MR-Egger / Weighted Median / Weighted Mode / MR-PRESSO)。SNP 筛选:GWAS 阈值(p<5×10⁻⁸)+ LD 剪枝(r²<0.001,500kb 窗口)+ F 统计量(>10)。数据源:UK Biobank / FinnGen / IEU Open GWAS。
Reviewer 常问:IV 独立性与排他性如何保证?多效性检验结果?
Missing Data · 缺失
MICE 多重插补
MICE(m≥5,Rubin 法则合并):连续变量 PMM,二分变量 logistic,有序变量 proportional odds。插补收敛诊断(trace plot)+ 插补前后 Table 1 对比 + 完整数据集 vs 插补数据集敏感性分析。MNAR 机制下增加 pattern mixture 模型。
Reviewer 常问:MNAR 机制下如何处理?Rubin 法则合并的具体方法?
Repeated Measures · 纵向
GEE / 混合效应模型
GEE(群体平均效应,适合估计政策效果)vs LME/GLMM(个体轨迹,适合预测个体预后)。工作相关矩阵选择(独立/可交换/AR-1/非结构化)+ QIC 准则。纵向缺失机制假设(MCAR/MAR)说明。
Reviewer 常问:为何选 GEE 而非混合效应?工作相关矩阵选择依据?
Imaging · 影像组学
影像组学建模
CT/MRI 特征提取(PyRadiomics:形状 + 一阶 + GLCM/GLRLM 纹理,≥100 特征)+ ICC 稳定性筛选(ICC>0.75)+ 降维(LASSO / Elastic Net / 随机森林)+ 多模态融合(影像 + 临床特征)。AUC + 校准曲线 + DCA 三维评估,TRIPOD 报告规范。
Reviewer 常问:特征稳定性(ICC)如何报告?维数灾难如何控制?
Output · 交付物

你拿到的不是"结果图",是完整证据链。

Quality Control · 双盲复算

每个项目的统计结论,都经过独立质控人复算验证。

主负责人与质控人使用完全独立的代码路径,不共享中间文件与中间结果。双盲复算确保结论不依赖于单一实现路径,任何第三方统计学家拿到代码都能复现相同结果。

LEAD STATISTICIAN · 主负责人
按 SAP 严格执行建模
主负责人按预先确认的统计分析计划(SAP)执行全部建模:数据清洗(含清洗日志)→ MICE 插补 → 主分析建模 → 敏感性分析 → 图表输出。代码与中间数据文件封存,生成初稿结果,发送给质控人前不做修改。
CLIENT CHECKPOINT · 关键节点客户确认
主分析模型选定前客户确认
主分析模型类型(如:Cox vs 竞争风险、PSM vs IPTW)和核心协变量清单在主分析执行前,通过 PMS 系统向客户发送确认请求。客户异步确认后,主负责人才正式推进。此步确保后续任何修改都有客户知情同意记录。
QC STATISTICIAN · 质控人
独立从头复算核心结果
质控人不查看主负责人任何代码、中间数据或结果。独立读取原始数据,独立编写数据清洗与建模脚本,独立输出图表和回归表格。整个复算路径完全独立实现,与主负责人使用同样的统计方法但不同的代码实现。
RECONCILIATION · 结果比对
两套结果逐指标比对
主负责人与质控人的核心指标(OR/HR/AUC/SMD 等)逐项比对,精确到小数点后 4 位。差异超过 0.001 的指标必须溯源:确认是数据处理路径差异(如缺失值处理顺序)还是模型参数设置差异。溯源解决后统一为最终版本,形成最终结论。
DELIVERY · 交付打包
主线脚本打包,双签交付
复算通过后,打包主线代码(主负责人版本)+ 图表 + 结果表格 + Methods 节文本 + 数据字典 + 决策记录,通过 PMS 系统推送客户下载。质控人与主负责人双签交付记录,留存 PMS。客户下载后项目进入"交付完成"里程碑状态。
Software · 技术栈

R / SPSS / Stata / SAS,按项目需求灵活交付。

主力使用 R,同时支持 SPSS / Stata / SAS,按客户需求和机构环境选择。

R
主力推荐
  • ggplot2 出版级图表(PDF/TIFF)
  • 全套统计包(survival/MatchIt/mice/lme4/meta/netmeta)
  • 代码跨平台可复现,GitHub 友好
  • CRAN 每月更新,前沿方法学快速可用
  • 开源,完整脚本可随交付物打包
SPSS
院内友好
  • 操作界面直观,医院内部培训友好
  • SPS 语法文件可随交付,可在院内复现
  • 适合需要在临床科室环境重现分析的场景
  • 局限:高级方法学支持(如 MICE/GEE/竞争风险)有限
Stata
流行病学金标准
  • 生存分析与面板数据的首选工具
  • do-file 语法清晰,代码可读性高
  • 临床流行病学领域国际期刊广泛认可
  • IVE / 时间序列 / MR 插件生态完善
  • ado 包丰富,方法学前沿可快速实现
SAS
合规环境
  • FDA 监管临床试验的标准统计软件
  • PROC 系列稳定成熟,SAS log 审计轨迹完整
  • 适合需要满足 GCP/ICH 合规提交要求的项目
  • 多中心 RCT 注册临床试验首选
  • 可输出 21 CFR Part 11 兼容的审计日志
Prevention · 统计质疑预防

这三类统计问题,是我们在交付前必须自查的高频 reviewer 质疑。

基于内部 600+ 项目质控记录整理,不代表特定期刊或审稿人立场。

REVIEWER 关于 PSM 平衡性验证
While the authors used propensity score matching, no standardized mean difference (SMD) values are reported after matching. The adequacy of covariate balance cannot be assessed, and the comparison may still be subject to residual confounding.
预防策略:PSM 建模标配输出匹配后 Love Plot(所有协变量 SMD 柱状图,以 0.1 为阈值线),结果表格中附匹配前后的 Table 1(含 SMD 列)。方法节注明"所有协变量的标准化均差(SMD)均在匹配后降至 0.1 以下",并附 Love Plot 为图表或在线补充材料。reviewer 看到 Love Plot 后通常不再质疑平衡性。
REVIEWER 关于敏感性分析缺失
The authors report only the main analysis results. Given the observational nature of the study and the multiple modeling assumptions made, sensitivity analyses are essential to evaluate the robustness of findings. None are presented in the current manuscript.
预防策略:所有观察性研究默认执行至少 3 类预设敏感性分析(在 SAP 中提前注明),并在方法节"Statistical Analysis"小节专门列出:"Sensitivity analyses included (1) complete-case analysis without imputation, (2) alternative exposure definition (x days instead of y days), and (3) E-value calculation to assess unmeasured confounding." 结果节中每类敏感性分析均有对应段落,主要发现结论的稳健性有文字支撑。
REVIEWER 关于统计效能与结果解读
The primary analysis yields a hazard ratio of 1.18 with 95% CI crossing 1.0 (0.76–1.84). The study appears underpowered and the null result is uninformative without a formal power calculation.
预防策略:在设计阶段(SERVICE 01 课题设计)完成样本量估算并写入 SAP,方法节引用具体计算依据(假设效应量、把握度、失访率)。若数据已锁库且样本量不可更改,在讨论节规范说明局限性,同时将重点从"P 值显著/不显著"转向效应量解读(HR=1.18, 95% CI 0.76–1.84 表示…),并用置信区间宽度解释研究精度,引导读者理解"结果不稳健"不等于"研究无价值"。
FAQ · 常见问题

统计建模服务常见问题。

Next Steps · 相关服务

统计建模完成后,这些环节同样关键。

06 / Get Started

把你的研究问题交给方法学。

通常 24 小时内(工作日优先)完成可行性评估,包括样本量、终点选择、可行的统计路径与潜在审稿风险点。

无需付款 · 不限学科 · 方法学先于报价