改进的基于后缀树的Web搜索结果聚类算法  

Improved Algorithm of Web Retrieve Results Clustering Based on Suffix Tree

在线阅读下载全文

作  者:董亚则[1] 李万龙[2] 李航[2] 郑山红[2] 

机构地区:[1]长春工业大学应用技术学院,长春130012 [2]长春工业大学计算机科学与工程学院,长春130012

出  处:《吉林大学学报(信息科学版)》2016年第4期543-549,共7页Journal of Jilin University(Information Science Edition)

基  金:吉林省自然科学基金资助项目(20130101060JC);吉林省教育厅"十二五"科学技术研究基金资助项目(2014125;2014131)

摘  要:为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。How to improve the accuracy and precision of search engine in the Internet Era is the key problem needed to be solved urgently. Based on the basic model of the suffix tree clustering algorithm,an improved search results clustering algorithm based on suffix tree is proposed,in which Vector space model is combined with suffix tree clustering to improve the effect of the base class merge. Otherwise,the number of the texts corresponding to base class node,word length included in the phrase,phrase weight and whether it contains the query terms are combined as the seletion condition of clustering label. It improves the rationality and readability of the clustering labels consquently. Finally,the method is testified by using the text classification corpus data in the Sogou corpus. The experimental results show that the method can improve the accuracy of clustering results to a certain extent.

关 键 词:文本聚类 后缀树 向量空间模型 Web检索结果 

分 类 号:TP39[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象