中文医疗文本匿名化方法研究  被引量:6

Study on the Anonymization Method of Chinese Medical Document

在线阅读下载全文

作  者:徐益辉[1] 姚琴[1] 袁冬生[1] 周天舒[1] 李劲松[2] 

机构地区:[1]浙江大学生物医学工程与仪器科学学院,电子病历与智能专家系统教育部工程研究中心,浙江省杭州市浙大路38号310027 [2]浙江大学生物医学工程与仪器科学学院,浙江省杭州市浙大路38号310027

出  处:《中国数字医学》2014年第7期19-21,共3页China Digital Medicine

基  金:国家自然科学基金项目(编号:61173127);国家"863计划"项目(编号:2013AA041201);浙江大学海外一流学科伙伴计划(编号:188170*193251101)~~

摘  要:医疗文档的匿名化工作能够有效保护患者隐私,推动中国电子病历匿名化的发展。但传统的人工筛检患者隐私信息方法不仅效率低下,错检、漏检频繁,且消耗大量人力资源。针对这一问题,引入中文分词技术,提出并实现了一种基于中文分词技术的识别并处理中文人名的算法。该方法通过对医疗文本当中的自然句切割和切词以及充分挖掘姓名和其上下文信息的关联程度,实现了在电子病历中批量处理中文医疗文档。通过此方法,人名的检出率达到96.80%,超过临床人员对PHI的人工平均检出率81%,同时获得了90.57%的精确率。在保护患者隐私的同时,最大化地减少匿名化对医疗文档临床医用价值的影响。Anonymization of the medical document provides effective protection of patient privacy so as to promote the development of anonymization of electronic medical records in China. However, traditional methods which identify patient privacy manually are not only inefficient with frequent errors and omissions but also labor-consuming. To solve this problem, this paper introduces an algorithm which has achieved batch anonymizing Chinese medical document upon EMR, system through fragmenting natural sentences and words of medical document and fully exploiting the correlation between the names and the context. With this approach, the name detection rate has reached 96.80%, higher than manual average PHI detection rate of 81% done by clinical staff and has meanwhile reached an accuracy of 90.57%. It has reduced the impact of anonymization on the clinical and medical value of medical document to the maximum degree while still protecting patient privacy.

关 键 词:中文分词 隐私保护 关联信息 

分 类 号:R319[医药卫生—基础医学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象