检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学计算机系智能技术与系统国家重点实验室,北京100084
出 处:《中文信息学报》2007年第3期40-46,共7页Journal of Chinese Information Processing
基 金:国家863计划资助项目(2001AA114210-01)
摘 要:本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而使形容词与形容词之间构成网络关系。本文重点描述了如何根据三重信息分别建模计算形容词的相似性并通过计算字面相似度以及路径权值这些辅助信息修正每两个形容词之间的相似度,从而在某种程度上缓解了数据稀疏的问题,实验结果显示该算法是有效的。In this paper we present a method to group adjectives according to their corpora distribution, based on the Machine Tractable Dictionary of Contemporary Chinese Predicate Adjectives. We describe how our system extracts three groups of information for each adjective, which includes: modified nouns, synonyms, and antonyms, and exploits this knowledge to compute a measure of similarity between two adjectives with help of literal similarity and route weight of each adjective to another adjective, which in some extent solve the problem caused by sparse data. We also show how a clustering algorithm can use these similarities to produce the groups of adjectives, and we present results produced by our system for a sample set of adjectives.
关 键 词:人工智能 机器翻译 机器学习 词聚类 搭配对 Kendall τ系数法 字面相似度 路径权值
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.158.217