基于高斯混合模型双向聚类重采样和随机森林构建DLBCL早期复发预测模型  

Early Recurrence Prediction Model for DLBCL based on Gaussian Mixture Model Bi-directional Clustering Resampling and Random Forest

在线阅读下载全文

作  者:王俊霞 张岩波[1,2,3] 余红梅 曹红艳[1,2,3] 周洁 乔宇[1,2] 张高源 于凯[1,2] 王雪嫚 郭玉娇 赵志强 罗艳虹 Wang Junxia;Zhang Yanbo;Yu Hongmei(Department of Health Statistics,School of Public Health,Shanxi Medical Uiversity,Taiyuan 030001)

机构地区:[1]山西医科大学公共卫生学院卫生统计教研室,030001 [2]重大疾病风险评估山西省重点实验室 [3]煤炭环境致病与防治教育部重点实验室 [4]山西省肿瘤医院核医学PET/CT中心 [5]山西省肿瘤医院血液科

出  处:《中国卫生统计》2025年第1期7-11,17,共6页Chinese Journal of Health Statistics

基  金:山西省科技厅应用基础研究计划面上项目(202103021224245);国家自然科学基金青年科学基金(81502897,82273742,82173631);山西省2024年度研究生教育创新计划项目(2024JG088);2024年山西省高等学校教学改革创新项目(J20240531);山西医科大学博士启动基金(BS2017029)。

摘  要:目的应用一种可以同时解决少数类和多数类类间和类内不平衡问题的类别不平衡处理方法,并将其与随机森林(random forest,RF)分类器结合实现对弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者早期复发的预测,为DLBLC患者的治疗提供参考。方法首先使用一种基于高斯混合模型双向聚类重采样的类别不平衡处理方法(Gaussian mixture model,GMM-GMM)处理数据,并与随机过采样(random over sampling,ROS)、合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)、Borderline-1 SMOTE、Borderline-2 SMOTE、GMM上采样、GMM下采样、SMOTE+RUS、SMOTE+GMM和GMM+RUS进行比较,然后以RF作为分类器验证10种类别不平衡方法的性能,之后为验证RF的性能,在处理后的数据集上使用logistic回归和决策树(decision tree,DT)作为对照,最后从区分度和校准度两方面对模型进行评价。结果在本文所有模型中,采用GMM-GMM的RF模型取得了相对最优的分类性能(accuracy=0.79,AUC=0.87,sensitivity=0.71,specificity=0.87,G-means=0.79,MSE=0.21)。结论GMM-GMM优于其他传统的重采样方法,结合RF用于DLBCL患者早期复发的预测取得了相对较好的分类结果,可以很好地实现对DLBCL患者早期复发的预测。Objective We apply a class imbalance treatment method that can solve the between-class imbalance problem and the within-class imbalance problem of the minority class and the majority class at the same time.And combining it with RF classifier to achieve early recurrence prediction in DLBLC patients,which provided a reference for the treatment of DLBLC patients.Methods Firstly,we apply a class imbalance processing method based on Gaussian mixture model bi-directional clustering resampling to process the data.And compared with ROS,SMOTE,Borderline-1 SMOTE,Borderline-2 SMOTE,GMM oversampling,GMM undersampling,SMOTE+RUS,SMOTE+GMM and GMM+RUS.Afterwards,in order to verify the performance of RF,we use logistic regression and decision tree models as controls.Finally,the evaluation of the model is carried out in terms of discrimination and calibration.Results The RF model with GMM-GMM resampling achieved relatively optimal classification performance(accuracy=0.79,AUC=0.87,sensitivity=0.71,specificity=0.87,G-means=0.79,MSE=0.21).Conclusion GMM-GMM is superior to other traditional resampling methods,and combining it with the RF model for the prediction of early recurrence in DLBCL patients has achieved relatively good classification results,which can well realize the prediction of early recurrence in DLBCL patients.

关 键 词:类别不平衡 高斯混合模型聚类重采样 随机森林 复发预测 弥漫大B细胞淋巴瘤 

分 类 号:R195.1[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象