检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学计算机科学与技术学院,南京210094 [2]北京理工大学计算机学院,北京100081
出 处:《情报学报》2010年第3期460-467,共8页Journal of the China Society for Scientific and Technical Information
基 金:国家863高技术研究发展计划资助项目(2006AA01Z152); 国家自然科学基金资助项目(60672149)
摘 要:中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。Term extraction is one of the primary technical challenges in many information process tasks,such as information extraction,text mining and knowledge acquisition.Relative to the single-word terms,the multi-word terms have to face much more noise which is brought due to the non-noun lexicon appearing in the phrases.Besides structure integrality,collocation and domain relevant degree are also the main problems puzzling the terms extraction.To solve these problems,three strategies combining with substring reduction,collocation test and termhood computation are proposed to improve the result of multi-word terms extraction.In the experiment on the computer domain corpora,the low-frequency-terms and base-terms could obtain more attention,and consequently Chinese multi-words terms extraction get a better precision.
关 键 词:中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关度
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46