其他
R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)
本文约3000字,建议阅读5分钟
重复测量资料在临床数据中非常普遍,常用重复测量的方差分析进行统计分析,但是经常面临的问题有:
①临床资料又常常含有缺失值,例如采用某新药治疗疾病,分别在治疗前,治疗后1月,治疗后3月测量Y指标,但由于病人依从性等原因,导致治疗3月后缺失几例数据。
1.可视化不同组Hb随时间的变化趋势2.时间作为分类变量,构建混合效应模型3.时间作为连续变量,构建混合效应模型4.模型1和模型2对比和选择5.模型残差检验
文献分享
作者观察的时间点time分别是早上、晚上、第二天早上。观察的指标Y分别是INVF(神经突内体积分数),exMD(神经突外平均扩散率)和exRD(桡神经突外扩散性)。
上述折线图的横轴是时间点,纵轴是边际估计均值,每个时间点上加了误差线,这个图直观的看出两组人群各指标随时间增加的变化。
混合效应分析结果显示:
随着时间的增加,INVF 和 exRD 有显著的变化(p<0.05),exMD没有显著变化。而exMD在TP1到TP3和TP1到TP4 的时间点中存在显著的交互作用,而INVF 和 exRD没有交互作用,可以参考原文翻译。
Results from the linear mixed model revealed significant main effects of time in INVF and exRD, but not exMD (see Table 2). Further, there were significant group × time interaction effects in exMD from TP1 to TP3 and from TP1 to TP4, but not INVF and exRD.
加载R包和数据
数据结构:自变量X是分组变量,Y指标是4个时间点重复测量Hb浓度。
研究思路:1:Hb随t(时间)的变化趋势是什么?2:组1和组2相比,Hb随t的变化趋势是否不同?
1 加载数据
注:首先需要将数据集转化为混合效应模型可分析的结构(俗称“宽数据”变为“长数据”),这部分需要先处理数据,关于数据宽变长,后面有机会再给大家整下。这里加载进来的数据是已经处理好。
结果解读:
图一是每个观察对象的Hb随时间的变化趋势,用两种颜色区别两组。图中每条线表示一个患者,纵坐标是Hb,横坐标是时间点。图二是两组的Hb的估计边际均值随时间变化趋势。横坐标是时间点,纵坐标是估计边际均值,其中这个”均值”跟普通均值稍微有点差异,可以简单理解为均值。每个点上的误差线表示估计均值的标准误SE。
从以上两个图可以看出:Hb随时间呈线性上升的趋势,组2上升斜率低于组1,红色的线在绿色线下方。
lme的参数说明:
formula:混合效应模型表达式,类似线性回归和二元逻辑回归,*表示分别考虑time,group,以及他们的交互作用。random:设置随机效应,这里的随机效应是不同患者的随机截距效应。method:模型参数的估计方法,有两种REML和ML。这里选择ML。data:是数据集
模型1结果解释:
fit1返回的结果很多,
第一:最上面是模型的AIC,BIC和极大似然值;第二:模型的随机效应,随机效应用方差表示;14.62是随机截距的误差项,6.5是残差第三:模型的固定效应,也是我们最关注的核心分析结果。第二列Value是回归系数,代表的是各组各时间点的均值。下面依次罗列。
Intercept: 表示组1的t1时间点的Hb的均值,是26.56;factor(time)2,表示组1的 t2相比于t1,Hb的差值,是10.19;factor(time)3,表示组1的 t3相比于t1,Hb的差值,是13.44;factor(time)4,表示组1的 t4相比于t1,Hb的差值,是15.95;group2, 表示t1时刻,组2相比于组1的Hb的差值 是-0.43;factor(time)2:group2,交互项,表示组2的t2与t1两时点差与组1相比,差是-3.58。factor(time)3:group2,交互项,表示组2的t3与t1两时点差与组1相比,差是-1.61。factor(time)4:group2,交互项,表示组2的t4与t1两时点差与组1相比,差是-1.06。
根据以上的模型显示:随着时间的增加,Hb逐步增加,而组2比组1增长慢。根据模型的P值,可知,Hb随时间增加,其变化是显著的。而由交互检验P>0.05,显示组1和组2随时间的变化趋势基本一致,没有统计学差异,二者没有交互作用。
6 模型2的结果解读
第一:同上;第二:同上;第三:模型的固定效应,也是我们最关注的核心分析结果。
第二列 Value是回归系数:
Intercept: 表示组1随时间拟合直线的截距,表示组1的t1时间点Hb的均值,是23.68;
time,表示组1随时间拟合直线的斜率,表示组1的t2相比于t1,t3相比于t2的Hb的差值,是5.11;
factor(group)2,表示t1时刻,组2相比于组1的Hb的差值 是-1.68;
time:factor(group)2,交互项,表示组2与组1相比,两条拟合直线斜率的差是-0.12。
根据以上的模型显示:随时间增加,Hb变化是显著的。而由交互检验显示,P>0.05,显示组1和组2随时间的变化趋势基本一致,二者没有交互作用。
结果和模型1完全一致。
两个模型似然比检验anova(fit1,fit2)
结果解释:
模型对比:
模型1和模型2的分析结果完全一致,而模型2更加简洁的给出了两组的Hb随t变化的速度和差别,不过模型2是假使Hb随t呈线性变化,关于选择是否恰当,可以采用似然比检验模型1和模型2,如上,P=0.3941,差异不显著,说明简化的模型2可以代替模型1,本次我们选择模型2作为最终的模型,也就意味这Hb随时间变化是线性的。
如果差异显著,P<0.05,则说明不能用用直线关系代替,可以考虑引入t的平方或者三次方拟合。
模型最终结果分析:
以上的分析已经回答出一开始的两个问题:
1.Hb随着时间增加而直线上升;
2.随着时间的增加,组1的Hb增长率是5.11个单位,组2的增长率是4.99(计算5.11-0.12),但组1和组2增长的差别不显著(P=0.9282),即二者增长率一致。
结果显示两种正态检验方法的P均大于0.05,说明模型的残差符合正态分布,图1是残差随机分布在直线两边,直方图显示的残差成对称的左右分布,结果均说明,模型残差符合正态分布,模型的构建是合理的。
编辑:王菁
校对:刘光栋