检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张少迪 艾山·吾买尔[1,2] 郑炅[1,2] 石刚[1,2] ZHANG Shaodi;AISHAN Wumaier;ZHENG Jiong;SHI Gang(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;Laboratory of Xinjiang Multi-Language Information Technology,Xinjiang University,Urumqi 830046,China)
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046 [2]新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046
出 处:《现代电子技术》2019年第16期104-107,111,共5页Modern Electronics Technique
基 金:国家自然科学基金资助项目(61762084);国家自然科学基金资助项目(61662077);国家自然科学基金资助项目(61462083);国家自然科学基金资助项目(61331011);新疆多语种信息技术实验室开放课题(2016D03023)~~
摘 要:随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。With the advent of the era of big data,how to extract the most effective information from massive data has be-come the most urgent need of people.In order to extract information better and faster from Chinese-English text in the environ-ment of big data,Python programming language and Django+uWSGI+Nginx framework are adopted in this paper to realize the Chinese-English text information extraction system on the basis of TextRank′s graph sorting algorithm.This system includes text keyword extraction,text key phrase extraction and text abstract extraction.The test results show that the system can achieve high-concurrency and stable call of large-scale data,and also can achieve ultrahigh-efficiency information extraction while taking into account the extraction quality of,which has good practical application value.
关 键 词:大数据 高并发 信息抽取 TextRank uWSGI NGINX DJANGO
分 类 号:TN912.34-34[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.116