Web科技新闻分类抽取算法  被引量:3

Categorization Extraction Algorithm for Scientific-Related News on Websites

在线阅读下载全文

作  者:朱全银[1] 潘禄[1] 刘文儒 李翔[1] 张永军[1] 刘金岭[1] 

机构地区:[1]淮阴工学院计算机与软件工程学院,江苏淮安223005

出  处:《淮阴工学院学报》2015年第5期18-24,共7页Journal of Huaiyin Institute of Technology

基  金:国家星火计划(2011GA690190);江苏省科技支撑计划(2015);江苏省高校自然科学研究面上项目(15KJB520004);淮安市科技支撑计划(HAG2014023;HAG2014028);淮安市"533英才工程"项目

摘  要:为了改善从Web上获取的新闻信息的使用价值,针对Web网站存在大量非科技相关新闻的现状,以互联网上政府新闻网站、凤凰网等新闻为研究背景,选取TF-IDF文本加权方法,设计了科技新闻多层次二分类模型,实现了基于TFIDF的科技新闻文本分类抽取系统,在20万新闻文档和4000多种分类上,实验取得了科技新闻85.3%的识别准确率和非科技新闻82.9%的识别率,为Web科技新闻分类抽取提供有实用价值的参考模型。There are a lot of non-scientific-related news on Websites. In order to improve the useful value for the news information,a novel multilevel dichotomous model of text automatic categorization extraction system for technology news based on TF-IDF was designed and implemented. The news offered by government news website and Phoenix as the research background in scientific news categorization extraction. Experiments showed a85. 3 percent accuracy for scientific-related news and 82. 9 percent recognition rate for nonscientific-related news respectively in the test containing two hundred thousand documents and more than four thousand news classifications. The results showed that the proposed method offered a useful reference model on website scientific intelligence.

关 键 词:科技新闻 文本分类 TF-IDF 抽取算法 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象