基于可解释性LightGBM算法构建结直肠癌术后 生存预测模型  

Building a postoperative survival prediction model for colorectal cancer using an explainable LightGBM algorithm

在线阅读下载全文

作  者:石卓跃 李砥 刘梦婷 海荣 宁丽[1] SHI Zhuoyue;LI Di;LIU Mengting;HAI Rong;NING Li(school of Public Health,Xinjiang Medical University,Urumqi 830000;Public Health Management Department of Karamay Center Hospital,Karamay 834000,China)

机构地区:[1]新疆医科大学公共卫生学院,新疆维吾尔自治区乌鲁木齐市830000 [2]克拉玛依市中心医院公共卫生科,新疆维吾尔自治区克拉玛依市834000

出  处:《中国煤炭工业医学杂志》2025年第1期75-85,共11页Chinese Journal of Coal Industry Medicine

基  金:天山英才医药卫生高层次人才培养计划(编号:TSYC202301B150);新疆维吾尔自治区自然科学基金地州项目(编号:2021D01F32)。

摘  要:目的 利用可解释性轻度提升机(LightGBM)算法及炎症生物标志物构建结直肠癌(CRC)患者术后的生存预测模型,为CRC患者的预后提供参考。方法 回顾性收集并分析了2016年1月-2023年1月克拉玛依市中心医院收治的437例CRC患者的相关实验室及临床资料,采用7:3的比例将研究对象分为训练集和验证集,其中训练集305例,验证集132例。采用LASSO回归算法进行初步变量筛选,使用LightGBM和Shapley加性解释(SHAP)进行进一步特征选取,并通过Cox回归模型构建列线图。最终通过区分度、校准度对模型效能进行评估,并绘制Kaplan-Meier风险分层曲线确定组间差异。结果 总生存期(OS)模型纳入变量为是否转移、年龄、格拉斯哥预后指数(GPS)、肠梗阻及血红蛋白(HB);肿瘤特异性生存期(CSS)模型为是否转移、肠梗阻、GPS、癌胚抗原(CEA)及年龄。Cox回归结果显示,OS模型中是否转移(HR:4.71,P<0.01)、年龄(HR:1.82,P<0.01)、GPS(HR:1.64,P<0.01)、肠梗阻(HR:1.64,P<0.05)、HB(HR:0.45,P<0.01);CSS模型中是否转移(HR:8.16,P<0.01)、肠梗阻(HR:1.73,P<0.05)、CEA(HR:1.69,P=0.06)、GPS(HR:1.63,P<0.01)、年龄(HR:1.76,P<0.01)。一致性指数(C指数)、受试者工作特征(ROC)曲线和时间依赖性的曲线(ROC曲线下面积AUC)结果显示模型在不同时间下均具有较好的区分度。校准曲线显示不同时间模型曲线与理想预测线均接近,显示出较好的校准度。生存曲线显示高风险组的生存概率显著低于低风险组(P<0.001)。结论 本研究构建了方便、直观且高效的CRC生存列线图模型,在CRC患者生存预测方面表现出优秀的性能,有助于临床医生为CRC患者提供准确地个体化预后评估,辅助制定科学的康复随访计划。Objective To develop a postoperative survival prediction model for colorectal cancer(CRC)patients using the interpretable Light Gradient Boosting Machine(LightGBM)algorithm and inflammatory biomarkers,providing a reference for CRC prognosis.Methods A retrospective analysis was conducted on clinical and laboratory data from 437 CRC patients admitted to Karamay Central Hospital of Xinjiang from January 2016 to January 2023.The dataset was randomly split into a training set(305 cases)and a validation set(132 cases)in a 7:3 ratio.LASSO regression was used for preliminary variable selection,followed by further feature selection using LightGBM and Shapley Additive Explanations(SHAP).A nomogram was constructed based on a Cox regression model.Model performance was evaluated by discrimination and calibration,and Kaplan-Meier survival curves were used for risk stratification analysis.Results The overall survival(OS)model included metastasis status,age,Glasgow Prognostic Score(GPS),intestinal obstruction,and hemoglobin(HB)as predictive variables.The cancerspecific survival(CSS)model included metastasis status,intestinal obstruction,GPS,carcinoembryonic antigen(CEA),and age.Cox regression analysis showed that in the OS model,metastasis(HR:4.71,P<0.01),age(HR:1.82,P<0.01),GPS(HR:1.64,P<0.01),intestinal obstruction(HR:1.64,P<0.05),and HB(HR:0.45,P<0.01)were significant prognostic factors.In the CSS model,metastasis(HR:8.16,P<0.01),intestinal obstruction(HR:1.73,P<0.05),CEA(HR:1.69,P=0.06),GPS(HR:1.63,P<0.01),and age(HR:1.76,P<0.01)were associated with prognosis.The concordance index(C-index),receiver operating characteristic(ROC)curves,and time-dependent area under the curve(AUC)demonstrated good discriminatory ability of the models over different time points.Calibration curves showed good agreement between predicted and actual outcomes.Survival analysis indicated that the high-risk group had a significantly lower survival probability than the low-risk group(P<0.001).Conclusion This study developed a convenient,intuitive,and e

关 键 词:结直肠癌 机器学习 炎症生物标志物 列线图 生存模型 

分 类 号:R735.34[医药卫生—肿瘤]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象