基于聚类方法对特定领域术语的自动筛选  被引量:7

To Automatically Filter Specific Field Terms Based on the Clustering Method

在线阅读下载全文

作  者:李勇[1] 

机构地区:[1]襄樊学院电气信息工程系,湖北襄樊441053

出  处:《计算机工程与科学》2008年第2期64-66,134,共4页Computer Engineering & Science

摘  要:从大规模无标注的文本中获取特定领域的术语词典,通常采用的方法是从术语抽取器得到相关术语,而后使用手工的方式进行术语筛选,得到相关领域的术语。这需要大量的人力物力,并且标准无法统一。本文提出了一种利用CBC聚类方法从抽取的术语文本中自动剔除非此领域的术语,并且通过对训练语料库文本的不断丰富,还可以对新词进行识别,以扩大该领域的术语集。最后,通过对实验结果进行评测,显示了CBC聚类方法对术语筛选的良好效果。In order to get the specific field term dictionary from large-scale unlabelled texts,we usually use manual methods to filter terms after getting the terms from the machine of term-extraction. But this needs more manpower and material resources. This paper proposes a new way to automatically filter the specific terms from term texts based on the CBC(cluster by committee) clustering method. Meanwhile, it can recognize new field terms by enlarging the field corpus. Finally it evaluates the results of this experiment, and shows the better effect of the method in filtering terms.

关 键 词:CBC聚类方法 术语筛选 语料库 术语抽取 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象