基于内容和用户行为的查询聚类  被引量:4

Query Clustering Based on Content and User Behavior

在线阅读下载全文

作  者:程舒杨 熊锦华[1] 公帅[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所,北京100190

出  处:《中文信息学报》2016年第2期121-127,共7页Journal of Chinese Information Processing

基  金:国家重点基础研究发展规划(973计划)项目(2014CB340406;2012CB316303;2013CB329602);国家自然科学基金(61173064);国家科技支撑计划项目(2015BAK20B03);国家科技支撑计划课题(2011BAH11B02;2012BAH39B04);国家242专项(2012F86)

摘  要:现有方法没有有效利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,获取的查询特征对于多意图查询在不同意图下的区分度不足,对于多意图查询的相关查询聚类效果不佳。针对以上问题,该文提出了基于查询图信息的GPLSI模型,并利用该模型学习所得的查询特征进行查询聚类。基于查询图信息的GPLSI模型利用查询的词语、点击和session共现现象,从查询的文本特征、点击行为和session信息等多个方面来模拟查询意图的产生和表现,学习查询在不同搜索意图上的概率分布。最后,实验结果验证了基于查询图信息的PLSI模型用于查询相似度计算和多意图查询聚类中的有效性。This paper proposes a probabilistic latent semantic indexing model based on query graph(GPLSI)to learn query features for query clustering in this paper.GPLSI for query-word co-occurrence and query-query co-occurrence simulates the generation of query intent and its representation based on query text,click and session information,and learns the probability distribution of query on different intents.Experimental results illustrate GPLSI's effectiveness in query similarity measurement and multi-intent query clustering.

关 键 词:查询聚类 多意图查询 搜索意图 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象