检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:袁玉虎[1] 周雪忠[1,2] 张润顺[3] 李晓东[4]
机构地区:[1]北京交通大学计算机与信息技术学院,北京100044 [2]中国中医科学院中医药数据中心,北京100700 [3]中国中医科学院广安门医院,北京100053 [4]湖北省中医院,武汉430061
出 处:《世界科学技术-中医药现代化》2017年第1期70-77,共8页Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology
基 金:国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015171):肝病回顾性病例表型信息抽取方法与分析研究;负责人:周雪忠;国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015170):慢性肝病病案资料数据审编方案设计;质量控制关键技术研究;负责人:张润顺;国家自然科学基金委青年科学基金项目(61105055):表型与基因型功能关联的数据整合和网络分析方法研究;负责人:周雪忠
摘 要:目的:中医临床病历作为重要的临床数据,以文本的形式记录了医生和患者交互的整个过程。目前,在大数据的背景下,针对临床病历所涵盖的主体问题信息如现病史的分析利用相关研究仍有所欠缺。因此,本文针对中医临床病历中的现病史部分展开症状术语抽取方法研究,为临床病历的进一步使用奠定基础。方法:首先通过随机挑选与专家审核的方式获得了12 367份现病史数据,按照疾病种类分成了两组实验,其中糖尿病组包含了4 838份数据,脾胃病组7 529份数据,以及合并后的混合组12 367份数据。并整理出了一份涵盖22 996个词的症状术语字典。然后选取滑动窗口特征、词的前后缀特征、词典特征等5种特征模板,使用CRFs模型开展症状术语命名实体抽取实验。结果:在实验结果评价标准(准确率、召回率和F1值)上的表现:在开放测试上的评价结果为(0.83、0.8、0.82)、(0.9、0.9、0.89)和(0.88、0.87、0.87);在十重交叉验证上的评价结果为(0.83、0.82、0.83)、(0.95、0.95、0.95)和(0.93、0.92、0.92)。结论:CRFs模型作为一种优秀的序列标注算法,适用于现病史文本的症状术语命名实体抽取任务。Clinical cases of TCM are used as important clinical data to record the whole process of the interaction between doctors and patients in the form of text. However, in the context of big data, there is a lack of research on the use of information covered in clinical cases. Therefore, we studied the method of extracting the symptom term from the history of present illness in TCM clinic in this paper, in order to lay the foundation for the further use of clinical cases. First, twelve thousand, three hundred and sixty-seven history data of present illness were obtained by random selection and expert review. According to the different disease types, they were divided into the two groups of the experiments: 4,838 data in the diabetes group, 7,529 data in the spleen and stomach disease group and 12,367 data in the mixed or combined group. A glossary of symptom terms covering 22,996 words were compiled. Then, five feature templates, such as sliding window feature, prefix and suffix character and lexical features, were selected. CRFs model was adopted to carry out named entity extraction experiment. As a result, in the open test, the performance of diabetes, spleen and stomach disease and mixed group were(0.83, 0.8, 0.82),(0.9, 0.9, 0.89) and(0.88, 0.87, 0.87), respectively, while the results were(0.83, 0.82, 0.83),(0.95, 0.95, 0.95) and(0.93, 0.92, 0.92) in the ten-fold cross validation. In conclusion, the results showed that the CRFs algorithm was an excellent sequence labeling algorithm and applied to the named entity extraction task of symptom history.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.44