一种基于Nutch的网页聚类系统的设计与实现  被引量:3

Design and implementation on Web clustering system based on Nutch

在线阅读下载全文

作  者:阳小兰[1] 钱程[1] 赵海廷[1] 

机构地区:[1]武汉科技大学中南分校信息工程学院,武汉430223

出  处:《计算机工程与应用》2011年第5期118-122,共5页Computer Engineering and Applications

摘  要:设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。A search results clustering system which can be able to search cluster results obtained from Nutch is designed both in English and Chinese language environment.This system is based on k-means algorithm and suffix tree clustering algorithm and is made of Nutch module,TF-IDF weight calculation module and text clustering module.The k-means algorithm and suffix tree clustering algorithm are contrasted based on the experiments.

关 键 词:NUTCH 聚类 K-MEANS 后缀树 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象