基于电力公司的多格式文档智能信息检索系统的设计与实现  

Design and Implementation of the Intelligent Information Retrieval System Based on Multiple- Format Document of Electric Power Company

在线阅读下载全文

作  者:方跃胜[1] 姚宏亮[2] 

机构地区:[1]安徽水利水电职业技术学院,合肥231603 [2]合肥工业大学计算机与信息学院,合肥230009

出  处:《重庆科技学院学报(自然科学版)》2014年第4期154-157,168,共5页Journal of Chongqing University of Science and Technology:Natural Sciences Edition

基  金:国家自然科学基金项目(60705015);安徽省自然科学基金项目(KJ2013B095)

摘  要:介绍基于电力公司的多格式文档智能信息搜索系统的设计原理和实现过程。通过PHP调用COM组件以及Java调用jar包,将其他多种文档转换为".txt"文档,经过分词并采用基于句子特征的文本摘要生成方法生成".txt"文档的摘要。检索模块采用基于词索引的全文检索,信息检索模型采用空间向量模型,实现摘要及高相关度句子的输出。This article describes the design principle and implementation process of the intelligent information re-trieval system based on multiple -format document electric power company. This system realizes how to convertPDF, HTML, XLS, D0C file to txt file by calling C0M component using PHP and calling jar package using Java.On this basis we realize the abstract generation of txt file by using Chinese word segmentation and automatic abstracttechnology based on the characteristics of sentences. Retrieval module uses Full - text retrieval based on word in-dex, takes space vector model as information retrieval and realizes the output of abstract and sentences with highcorrelation.

关 键 词:信息搜索系统 格式转换 自动文摘 全文检索 空间向量模型 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象