基于压缩倒排文件的中文全文检索仿真系统  

Chinese Full-text Retrieval Simulation System Based on Compressed Inverted File

在线阅读下载全文

作  者:宋懿[1] 国德峰[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200240

出  处:《计算机工程》2008年第9期64-66,共3页Computer Engineering

摘  要:探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。This paper analyzes Chinese full-text retrieval technologies based on compressed inverted file, including data compression, file storage, searching and ranking mechanisms. A Chinese text retrieval simulation system is implemented in C++/STL with ICTCLAS, which is a high precision Chinese segmentation tool from CAS. Some key codes are also included, and an experiment is carried using data provided by the Sogou Lab. The system disk utilization goes up nearly 80% through using improved compression algorithm.

关 键 词:中文全文检索 压缩倒排文件 排名 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象