一种面向医学短文本的自适应聚类方法  被引量:3

An Adaptive Clustering Method on Medical Short Text

在线阅读下载全文

作  者:栗伟[1] 许洪涛 赵大哲[1,3] 刘积仁[3] 

机构地区:[1]东北大学医学影像计算教育部重点实验室,辽宁沈阳110819 [2]郑州市人力资源和社会保障数据管理中心,河南郑州450000 [3]东软集团股份有限公司,辽宁沈阳110179

出  处:《东北大学学报(自然科学版)》2015年第1期19-23,共5页Journal of Northeastern University(Natural Science)

基  金:国家自然科学基金资助项目(61172002);国家科技支撑计划项目(2014BAI17B01);国家高技术研究发展计划项目(2012AA02A607)

摘  要:针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.An adaptive clustering method on short text was presented for synonyms text recognition and disease naming standardization of diagnosis in electronic medical record. Firstly, a new set based text similarity measure algorithm was proposed. Then, a similarity distribution based text clustering algorithm which could automatically determine the number of clusters was applied to recognize the synonymous disease texts. Finally, the disease naming texts were standardized by the central concept extraction algorithm based on frequent sequence pattern, while clusters were merged and optimized to further improve the clustering accuracy. The results showed that the proposed approach has a high accuracy and clustering efficiency which is of great significance for medical application such as medical text preprocessing, classification and analysis.

关 键 词:聚类分析 相似性度量 频繁序列模式 电子病历 相似度分布 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象