一种基于复杂网络特征的中文文档关键词抽取算法  被引量:44

An Automatic Keyword Extraction of Chinese Document Algorithm Based on Complex Network Features

在线阅读下载全文

作  者:赵鹏[1] 蔡庆生[1] 王清毅[1] 耿焕同[1] 

机构地区:[1]中国科学技术大学计算机科学与技术系

出  处:《模式识别与人工智能》2007年第6期827-831,共5页Pattern Recognition and Artificial Intelligence

基  金:国家自然科学基金(No.70171052);安徽省自然科学基金(No.2004kj011)

摘  要:关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的"小世界"特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于 TFIDF 关键词抽取算法所获得的平均准确率.Automatic keyword extraction is one of the most important techniques in natural language processing. In this paper, features of complex networks composed of Chinese are studied. A novel automatic keyword extraction algorithm for Chinese document is proposed which is based on the features of the complex networks according to the small world structure in language networks and'the theoretical achievements in complex networks. It extracts keyword based on the feature values of the word nodes in a documental language network. Experimental results show the proposed algorithm obtains higher average precision compared with the keyword extraction algorithm based on TFIDF.

关 键 词:复杂网络 语言网络 关键词抽取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象