检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李高鹏 艾山·吾买尔[1,2] 郑炅 王路路[1,2] LI Gaopeng;AISHAN Wumaier;ZHENG Jiong;WANG Lulu(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;Xinjiang Laboratory of Multi-Language Information Technology,Urumqi 830046,China)
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆多语种信息技术实验室,新疆乌鲁木齐830046
出 处:《现代电子技术》2019年第16期62-66,共5页Modern Electronics Technique
基 金:国家自然科学基金资助项目(61762084);国家自然科学基金资助项目(61662077);国家自然科学基金资助项目(61462083);国家自然科学基金资助项目(61331011);新疆多语种信息技术实验室开放课题(2016D03023)~~
摘 要:随着信息化的发展,互联网上出现了越来越多的文档信息,如何根据用户的需要从海量的文档中快速获取相关信息成为了研究的热点。采用Python编程语言、DjangoWeb应用框架、UWSGIWeb服务器、Nignx代理服务器,基于Tex-tRank关键词提取算法、倒排索引结构、Jaccard相似度计算以及MySQL数据库技术构建了汉英文本信息检索系统。该系统包含文本注册、文本检索和文本注销三个模块,可实现千万量级文本数量上的快速注册和快速检索功能,为构建舆情分析系统提供服务,并可根据人们特定的需求,扩展文本检索服务。With the development of informatization,more and more document information appears in the Internet.How to quickly obtain relevant information from the massive documents according to the needs of users has become a research hotspot.Python programming language,Django Web application framework,uWSGI Web server,Nignx proxy server are used in this sys-tem to construct a Chinese-English text Information retrieval system on the basis of TextRank keyword extraction algorithm,in-verting retrieval structure,Jaccard similarity calculation and MySQL database technology.The system consists of three modules:text registration,text retrieval and text logout.The system can realize the functions of fast text registration and retrieval at ten-million magnitude,and provides services for the construction of public opinion analysis system,which expands the text retrieval service according to people′s specific needs.
关 键 词:信息检索 算法介绍 倒排索引 检索系统构建 快速注册 快速检索
分 类 号:TN911.2-34[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.65