检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国石油大学(华东)计算机与通信工程学院,山东东营257061
出 处:《计算机工程与设计》2008年第19期5083-5086,共4页Computer Engineering and Design
摘 要:提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。A system model for Chinese full text search engine based on Lucene is proposed. In order to improve the performance of Lucene system in searching Chinese web pages, the technique of web page text extraction based on statistics, Chinese word segmentation module and documents for indexing pretreatment module are added into the system by analyzing the structure of Lucene. In order to im- prove the efficiency of searching information people needed, document clustering is applied in processing the searching results. The experimental results show that the proposed system can effectively improve the performance of the Chinese full text search engine system.
关 键 词:全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.69