检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王巍洁 任慧玲[1] 李晓瑛 王勖 张颖[1] Wang Weijie;Ren Huiling;Li Xiaoying;Wang Xu;Zhang Ying(Institute of Medical Information/Medical Library,Chinese Academy of Medical Sciences&Peking Union Medical College,Beijing 100020)
机构地区:[1]北京协和医学院/中国医学科学院医学信息研究所/图书馆,北京100020
出 处:《图书情报工作》2024年第6期119-128,共10页Library and Information Service
基 金:科技创新2030-“新一代人工智能”重大项目“面向医学人工智能服务的知识体系构建和应用研究”中文医学术语体系构建(项目编号:2020AAA0104901)研究成果之一。
摘 要:[目的/意义]为提高机器理解医学文本的能力,提高医学自然语言处理等上层任务效果,保障医学知识内容更新及时性、覆盖完整性,提出一种融合汉字多语义信息与文本统计特征的医学新词发现方法。[方法/过程]以规范用词的医学文献摘要数据为新词发现来源,基于N-gram模型获取N元词串,将词串存入字典树,从词的内部凝固度、词的自由程度、词的语义相似度3个角度同时计算每个N-gram词串的关联置信度、左右邻接熵、多语义相似度(包括汉字细粒度字符语义信息、BERT词向量信息),遍历上述各指标阈值评估N-gram词串为医学新词的可能。[结果/结论]从中华医学会收录的截至2022年10月20日的最新1000篇文摘中发现医学新词3263个,去除重复项后,共获得764个医学新词。提出的融合汉字多语义与文本统计特征的医学新词发现方法对比现有方法具有一定提升,且在应用上可以有效提高医学分词任务效果,使医学分词后的名词类别更清晰、概念更明确、内涵更丰富。结合汉字内在多语义信息与字词外部统计特征的医学新词发现方法,不仅可以提高计算机的新词发现能力,还可提高计算机面对专业且复杂的医学文本自然语言处理效果,对及时更新领域知识内容等具有重要帮助。of medical literature with canonical words as the source of new word detection,the paper obtained N-gram word string based on the N-gram model and stored it into the dictionary tree.From the word’s internal solidification degree,the freedom degree,and the semantic similarity,it calculated the correlation confidence,left-right adjacency entropy,and multi-semantic similarity(including the semantic information of Chinese characters with finegrained characters,BERT word vector information),and traversed the thresholds of each of the above indicators to evaluate the possibility of N-gram word strings as medical new words.[Result/Conclusion]From the latest 1000 abstracts in the Chinese Medical Association as of October 20,2022,the medical new word detection method identified 3263 new words,of which 764 were retained after removing duplicates.The method incorporating multi-semantic information of Chinese characters has made some progress over existing methods,and can effectively improve the effectiveness of the medical segmentation task.After the medical word segmentation,the noun category is clearer,the concept is more explicit,and the connotation is richer.This algorithm can not only improve the computer’s new word detection ability,but also its natural language processing effect in the face of specialized and complex medical texts,which is important to timely update the domain knowledge content.
关 键 词:医学新词发现 N-GRAM 多语义词向量 关联置信度 左右信息熵
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.116.51.45