基于大规模搜索日志的中文长句查询分析研究  被引量:2

Analysis of Chinese Long Query Based On Large-scale Search Logs

在线阅读下载全文

作  者:白如江[1] 杨振瑜[1] 王效岳[1] 

机构地区:[1]山东理工大学科技信息研究所

出  处:《情报学报》2013年第10期1090-1098,共9页Journal of the China Society for Scientific and Technical Information

基  金:教育部人文社会科学研究青年基金项目“长句检索中信息查询扩展技术研究”(12YJC870001);“山东理工大学青年教师发展支持计划”研究成果之一

摘  要:本文利用大规模搜索日志对用户中文长句查询的情况进行了统计研究。通过分析搜索日志中的中文长句查询确定了经常发生的查询类型特点,并对用户搜索行为与查询长度、查询类型和查询频率的关系进行了研究。进一步了解了session中用户查询词修改情况,总结了用户查询修改方法和长度修改方面的特征和规律。最后,将不同长度的查询放到了三个商业搜索引擎中分别进行检索,计算其重叠率。通过以上的分析研究发现虽然目前大部分查询都是短查询,但短查询并不能满足用户所有的检索需求,特别是在搜索引擎向语义检索不断发展的今天,长句检索的分析和利用能够从更深层次上了解用户的查询用语特点和搜索点击行为,这对于查询技术的改进和语义空间的构建都具有积极的作用。This paper did a statistical study of the situation of Chinese long sentence query based on the Large-scale search logs. We defined the features of query types that high frequent occur in the Chinese long query, analyzed the relationship between user search behavior and query length, query types, query frequency. In addition, we learned more about the revision of the user queries in the session, then summarized the features and disciplines of query and length modification. Finally, we explored the relation between the overlap among the results retrieved by three different search engines and the search query verbosity. Through the above analysis we find most of the queries are short, but short query can't meet the user retrieval needs. Especially in the continuous development of the semantic retrieval, the long query can understand the user's query terms features and search click behavior from a deeper level, it has an active role in query technology improvements and construction of semantic space.

关 键 词:查询长度 查询类型 SESSION 重叠率 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象