检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:姚婷[1,2] 张敏[1,2] 刘奕群[1,2] 马少平[1,2] 茹立云[1,2]
机构地区:[1]智能技术与系统国家重点实验室,北京100084 [2]清华大学计算机科学与技术系,北京100084
出 处:《计算机研究与发展》2012年第11期2368-2375,共8页Journal of Computer Research and Development
基 金:国家"八六三"高技术研究发展计划基金项目(2011AA01A205);国家自然科学基金项目(60903107;61073071);高等学校博士学科点专项科研基金项目(20090002120005)
摘 要:低频查询是用户提交查询频次非常低的查询.它们占了搜索引擎独立查询的很大比例且对用户体验影响巨大,但由于数据稀疏性,现有的搜索引擎用户行为分析及相关研究中对低频查询涉及很少.结合前人的相关工作,使用商业搜索引擎的大规模用户日志,在会话级别上进行低频查询的用户行为分析以及类别研究.基于目标查询行为、后续相关查询行为、整体会话行为3个方面的12个特征进行了低频查询的用户行为特征分析,首次提出了低频查询类别分析框架,并进一步使用改进的AdaBoost算法对低频查询会话进行分类.实验对2000个随机的低频查询会话样例进行分类,AUC值达到了83%以上.低频查询的用户行为分析和类别研究,将为搜索引擎用户行为分析等网络检索研究提供重要基础.Rare queries are those users submit to search engines very infrequently. They occupy a large fraction of different queries and affect users' experience greatly. But little work has been done on rare queries in existing user behavior analysis due to the data sparseness problem. In this paper we make an empirical study on characterizing user behaviors on rare queries and obtain an overview of rare query composition. Large scale search logs collected from a commercial search engine are used. Based on the analysis of several features involving behaviors in goal query, related queries and entire session, we propose a semi supervised categorization framework and use a modified AdaBoost to classify rare sessions, The results are evaluated on 2 000 randomly sampled rare sessions and the average AUC value is over 88%. This work will be helpful for Web search study including user behavior analysis concerning rare queries.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145