检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李宏凯 肖松涛[2] 欧阳应根[2] 李志强 LI HongKai;XIAO SongTao;OUYANG YingGen;LI ZhiQiang(College of Mathematics and Science,Beijing University of Chemical Technology,Beijing 100029;Institute of Radiochemistry,China Institute of Atomic Energy,Beijing 102413,China)
机构地区:[1]北京化工大学数理学院,北京100029 [2]中国原子能科学研究院放射化学研究所,北京102413
出 处:《北京化工大学学报(自然科学版)》2021年第3期106-113,共8页Journal of Beijing University of Chemical Technology(Natural Science Edition)
基 金:国家自然科学基金(21790371);中央高校基本科研业务费专项资金(XK2020-03)。
摘 要:当回归模型误差服从非对称或非正态分布时,尤其是在重尾分布或分布受污染的情况下,如何检测纵向数据中的异常值是数据分析中的一个重要问题。为了克服非正态分布模型误差的影响,采用稳健的分位数方法对一类线性混合效应模型进行参数估计,并分别基于数据删除模型和均值漂移模型构造强影响点的诊断度量和异常值的检验统计量,以有效地检测强影响点和异常值点。在识别强影响点时,为了减轻计算负担,利用光滑逼近的方法给出了数据删除模型参数的一步近似估计,并据此构造出基于损失函数的距离和Cook距离。为了能够识别异常值点,首先构造出检验异常值点的Wald统计量,然后基于数据删除模型和均值漂移模型的系数估计的等价性,利用Bootstrap抽样得到检验的拒绝域。数值模拟结果表明,本文所提的诊断度量和检验统计量都能够很好地判断出强影响点和异常值点。最后应用本文方法针对化学实验纵向数据进行了影响分析。How to detect outliers in longitudinal data when the model error obeys an asymmetric or non-normal distribution,especially under the condition of a heavy-tailed distribution or a contaminated distribution,is an important issue in data analysis.In order to overcome the influence of model errors with a non-normal distribution,a robust quantile method is adopted to estimate the parameters of the linear mixed model,and the data deletion model and the mean shift model used as a basis to construct the diagnostic metrics of influence observations and the test statistics of outliers.In oder to reduce computation when testing the influential observations,a one-step approximate estimation of the parameters of the case deletion model is employed,and the distance is estimated based on the loss function and Cook's distance.To identify outliers,we establish Wald statistics,and then the equivalence of the parameter estimations of the case deletion model and the mean shift outlier model is confirmed and Bootstrap sampling is used to obtain the rejection region.A simulation study shows that the diagnostic measures and diagnostic statistics can accurately test the influential observations and outliers.Finally,we apply the method to study the influence analysis of longitudinal data in chemical experiments.
关 键 词:线性混合效应模型 分位数估计 强影响点 异常值 Bootstrap抽样
分 类 号:O212[理学—概率论与数理统计]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.110.162