检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学计算机科学与技术学院,南京210094 [2]计算机语言信息工程研究中心,北京100089 [3]南京大学计算机科学与技术学院,南京210093
出 处:《计算机科学》2009年第5期177-180,共4页Computer Science
基 金:国家863高技术研究发展计划项目(2006AA01Z152);国家自然科学基金项目(60672149)资助
摘 要:提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。A hybrid terminology extraction system combined with linguistic knowledge and statistical information was introduced to extract compound terms which contain more than one word. There have been many statistical strategies used in automatic terminology extraction,most of which emphasize particularly to measure the integrality of the terms, other than domain features. To measure the domain relativity of terms, a mew method utilizing term frequency distribution variety was proposed. Incorporating with linguistic knowledge acquired by machine learning method, an automatic extraction system was implemented to extract multi-word terrns from the corporate of computer domain. The results show that this approach is effective especially to distinguish terms with lower frequency and common words with higher frequency.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46