基于词频分布变化统计的术语抽取方法  被引量:27

Terminology Extraction Based on Statistical Word Frequency Distribution Variety

在线阅读下载全文

作  者:周浪[1,2] 张亮[3] 冯冲 黄河燕 

机构地区:[1]南京理工大学计算机科学与技术学院,南京210094 [2]计算机语言信息工程研究中心,北京100089 [3]南京大学计算机科学与技术学院,南京210093

出  处:《计算机科学》2009年第5期177-180,共4页Computer Science

基  金:国家863高技术研究发展计划项目(2006AA01Z152);国家自然科学基金项目(60672149)资助

摘  要:提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。A hybrid terminology extraction system combined with linguistic knowledge and statistical information was introduced to extract compound terms which contain more than one word. There have been many statistical strategies used in automatic terminology extraction,most of which emphasize particularly to measure the integrality of the terms, other than domain features. To measure the domain relativity of terms, a mew method utilizing term frequency distribution variety was proposed. Incorporating with linguistic knowledge acquired by machine learning method, an automatic extraction system was implemented to extract multi-word terrns from the corporate of computer domain. The results show that this approach is effective especially to distinguish terms with lower frequency and common words with higher frequency.

关 键 词:术语抽取 机器学习 分布方差 知识获取 termhood unithood 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术] O212[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象