检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学智能信息处理研究所,北京100192 [2]国家计算机网络应急技术处理协调中心,北京100190
出 处:《计算机应用研究》2016年第8期2282-2285,2306,共5页Application Research of Computers
基 金:国家自然科学基金资助项目(61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519);北京市教委专项资助项目(PXM2013_014224_000042;PXM2014_014224_000067)
摘 要:针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。By using rules and integration of several statistical strategies, and from the perspective of unithood and termhood, this paper proposed a domain-specific term extraction algorithm and constructed the extraction system. System processes inclu- ded obtaining candidate terms based on information entropy expansion, unithood screening strategy based on part-of-speech match rules and boundary detection, and termhood screening strategy based on TF-IDF. Using this algorithm, it could not only extract commonly used d0main-specific terms, but also dig out new words about domain. The experiment results show that the accuracy of the term extraction system is 84.33% ,and the proposed method can effectively support the automatic term extrac- tion based on a specific domain.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222