检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:岳峰[1] 孙亮[2] 王宽全[1] 王永吉[2] 左旺孟[1]
机构地区:[1]哈尔滨工业大学计算机学院,哈尔滨150001 [2]中国科学院软件研究所互联网实验室,北京100190
出 处:《哈尔滨工业大学学报》2008年第7期1094-1098,共5页Journal of Harbin Institute of Technology
基 金:国家自然科学基金资助项目(60571025);国家高技术研究发展计划资助项目(2006AA01Z308)
摘 要:为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.To solve the infeasibility of traditional text classification methods or the manual classification method for classifying search queries, a method of constructing specific topical semantic lexicon from the Web is proposed. Starting from a few Keywords of a specific topic, this method expands the topical semantic lexicon step by step utilizing focused web crawling and bootstrapping. Because of the redundancy of information on the Web and the semantic distinction between different topics, the diversity of words of different topics is evident. This property can be used to classify the user search queries. Experiments show that, based on the semantic lexicon, user queries can be classified accurately. This classification method is achieved automatically with few manual operations, and it can classify the diverse and updated search queries effectively.
关 键 词:搜索引擎 查询分类 语义词典 基于主题的Web信息采集
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249