基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究  被引量:4

The Research of Disease Symptoms Weighting Mining based on Text Mining Method MAPTF-IDF

在线阅读下载全文

作  者:宋艳[1] 何嘉[1] 舒红平[2] 郑皎凌[2] 梁繁荣[2] 任玉兰[3] 文立玉[3] 

机构地区:[1]成都信息工程学院计算机系,四川成都610225 [2]成都信息工程学院软件工程系,四川成都610225 [3]成都中医药大学,四川成都610075

出  处:《成都信息工程学院学报》2014年第1期52-58,共7页Journal of Chengdu University of Information Technology

基  金:国家重点基础研究(973)计划子课题资助项目(2012CB518500);国家自然科学基金资助项目(61202250;61203172);四川省教育厅青年基金资助项目(11ZB088);四川省应用基础计划资助项目(2012JY0112);四川省科技支撑计划资助项目(2011SZZ027)

摘  要:词频反文档频率是文档特征权值表示的常用方法,用以评估单词对于语料库中的其中一份文件的重要程度。通过合理映射病例库与语料库的词汇关系,对词频反文档频率模型进行改进,并将改进后的词频反文档频率模型应用到针灸处方疾病症状权重挖掘中,计算出疾病所对应的各种症状权重。实验统计了106种疾病,其中与临床诊疗经验相符合的有84种,准确率达79.2%,实验表明改进的模型能得到较好的疾病症状权重鉴别效果。Term frequency-inverse document frequency is commonly used to calculate document feature weight values, such as to evaluate the importance of words in one document of the corpus. This paper improves the TF-IDF model by reasonably mapping the words relationship between case library and the corpus. It also applies the improved MAPTF-IDF model to acupuncture and moxibustion prescription to calculate the TCM symptom weights. The exper- iment analyzes 106 types of diseases; in which 84 types of diseases are consistent with clinical diagnosis. The accuracy rate is 79.2 %. Experiment results show that the improved model can achieve better identification effect.

关 键 词:计算机应用技术 词频 反文档频率 疾病症状 症状权重 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象