搜索日志中领域查询串识别研究  

Domain query recognition in search logs

在线阅读下载全文

作  者:唐静笑 吕学强[1] 柳成洋[2] 李涵[2] 

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]中国标准化研究院现代服务标准化发展研究中心,北京100101

出  处:《计算机工程与设计》2014年第5期1766-1771,共6页Computer Engineering and Design

基  金:国家自然科学基金项目(61171159;61271304);北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)

摘  要:利用搜索日志中查询串自身信息和用户点击信息,提出了双层模型识别领域查询串的方法。第一层模型采用贝叶斯法则和词典相结合的方法对查询串进行识别;针对搜索日志查询串内容简短、信息量少的特点,提出基于域名可信度的第二层识别模型。在搜狗2012版用户查询日志上对双层模型进行了开放测试,召回率和准确率分别达到了85.2%和94.6%,实验结果表明了该方法的有效性。A bi-level model identification method is proposed to identify domain queries based on the information of query itself and user clicking behavior in search log. The first level incorporates dictionary matching and Bayes theorem to identify the que ries; with regard to the features of short and less information, the second level based on domain name credibility is presented. The open test is done on Sogou user query log 2012 edition, whose results show that the recall and precision achieve 85.2%and 94.6% respectively. The method is proved to be effective.

关 键 词:查询串 双层模型 贝叶斯 领域词典 域名可信度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象