利用构建语义词典的查询自动分类方法  被引量:3

Automatic query classification via constructing semantic lexicon

在线阅读下载全文

作  者:岳峰[1] 孙亮[2] 王宽全[1] 王永吉[2] 左旺孟[1] 

机构地区:[1]哈尔滨工业大学计算机学院,哈尔滨150001 [2]中国科学院软件研究所互联网实验室,北京100190

出  处:《哈尔滨工业大学学报》2008年第7期1094-1098,共5页Journal of Harbin Institute of Technology

基  金:国家自然科学基金资助项目(60571025);国家高技术研究发展计划资助项目(2006AA01Z308)

摘  要:为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.To solve the infeasibility of traditional text classification methods or the manual classification method for classifying search queries, a method of constructing specific topical semantic lexicon from the Web is proposed. Starting from a few Keywords of a specific topic, this method expands the topical semantic lexicon step by step utilizing focused web crawling and bootstrapping. Because of the redundancy of information on the Web and the semantic distinction between different topics, the diversity of words of different topics is evident. This property can be used to classify the user search queries. Experiments show that, based on the semantic lexicon, user queries can be classified accurately. This classification method is achieved automatically with few manual operations, and it can classify the diverse and updated search queries effectively.

关 键 词:搜索引擎 查询分类 语义词典 基于主题的Web信息采集 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象