高并发汉英信息抽取系统的设计与实现  被引量:4

Design and implementation of high-concurrency Chinese-English information extraction system

在线阅读下载全文

作  者:张少迪 艾山·吾买尔[1,2] 郑炅[1,2] 石刚[1,2] ZHANG Shaodi;AISHAN Wumaier;ZHENG Jiong;SHI Gang(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;Laboratory of Xinjiang Multi-Language Information Technology,Xinjiang University,Urumqi 830046,China)

机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046

出  处:《现代电子技术》2019年第16期104-107,111,共5页Modern Electronics Technique

基  金:国家自然科学基金资助项目(61762084);国家自然科学基金资助项目(61662077);国家自然科学基金资助项目(61462083);国家自然科学基金资助项目(61331011);新疆多语种信息技术实验室开放课题(2016D03023)~~

摘  要:随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。With the advent of the era of big data,how to extract the most effective information from massive data has be-come the most urgent need of people.In order to extract information better and faster from Chinese-English text in the environ-ment of big data,Python programming language and Django+uWSGI+Nginx framework are adopted in this paper to realize the Chinese-English text information extraction system on the basis of TextRank′s graph sorting algorithm.This system includes text keyword extraction,text key phrase extraction and text abstract extraction.The test results show that the system can achieve high-concurrency and stable call of large-scale data,and also can achieve ultrahigh-efficiency information extraction while taking into account the extraction quality of,which has good practical application value.

关 键 词:大数据 高并发 信息抽取 TextRank uWSGI NGINX DJANGO 

分 类 号:TN912.34-34[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象