汉语述语形容词机器词典机器学习词聚类研究  被引量:3

Clustering of Chinese Adjectives Based on the Machine Tractable Dictionary of Contemporary Chinese Predicate Adjectives

在线阅读下载全文

作  者:王锦[1] 陈群秀[1] 

机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084

出  处:《中文信息学报》2007年第3期40-46,共7页Journal of Chinese Information Processing

基  金:国家863计划资助项目(2001AA114210-01)

摘  要:本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而使形容词与形容词之间构成网络关系。本文重点描述了如何根据三重信息分别建模计算形容词的相似性并通过计算字面相似度以及路径权值这些辅助信息修正每两个形容词之间的相似度,从而在某种程度上缓解了数据稀疏的问题,实验结果显示该算法是有效的。In this paper we present a method to group adjectives according to their corpora distribution, based on the Machine Tractable Dictionary of Contemporary Chinese Predicate Adjectives. We describe how our system extracts three groups of information for each adjective, which includes: modified nouns, synonyms, and antonyms, and exploits this knowledge to compute a measure of similarity between two adjectives with help of literal similarity and route weight of each adjective to another adjective, which in some extent solve the problem caused by sparse data. We also show how a clustering algorithm can use these similarities to produce the groups of adjectives, and we present results produced by our system for a sample set of adjectives.

关 键 词:人工智能 机器翻译 机器学习 词聚类 搭配对 Kendall τ系数法 字面相似度 路径权值 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象