检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蒋志鹏[1] 赵芳芳[1] 关毅[1] 杨锦锋[1]
机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《高技术通讯》2014年第6期609-615,共7页Chinese High Technology Letters
基 金:国家自然科学基金(60975077)资助项目
摘 要:针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。Considering that the research on Chinese word segmentation and part-of-speech (POS) tagging for Chinese electronic medical record (CEMR) is currently at a blank stage because of the lack of annotated corpus on CEMR, a complete scheme for data preprocessing to corpus annotation was proposed starting from corpus construction on CEMR so as to obtain a higher annotation consistency, and to build corpus with larger scale and higher quality on CEMR. Furthermore, the statistical lexical differences between CEMR, open-domain corpus and English electronic health record were quantified, and the systematic error analysis was performed on a POS tagging model trained on open-domain corpus. The work lays the foundation for the research on natural language processing (NLP) technolo- gies for CEMR.
关 键 词:中文电子病历(CEMR) 词性标注 标注一致性 语料差异 错误分析
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222