检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:朱全银[1] 潘禄[1] 刘文儒 李翔[1] 张永军[1] 刘金岭[1]
机构地区:[1]淮阴工学院计算机与软件工程学院,江苏淮安223005
出 处:《淮阴工学院学报》2015年第5期18-24,共7页Journal of Huaiyin Institute of Technology
基 金:国家星火计划(2011GA690190);江苏省科技支撑计划(2015);江苏省高校自然科学研究面上项目(15KJB520004);淮安市科技支撑计划(HAG2014023;HAG2014028);淮安市"533英才工程"项目
摘 要:为了改善从Web上获取的新闻信息的使用价值,针对Web网站存在大量非科技相关新闻的现状,以互联网上政府新闻网站、凤凰网等新闻为研究背景,选取TF-IDF文本加权方法,设计了科技新闻多层次二分类模型,实现了基于TFIDF的科技新闻文本分类抽取系统,在20万新闻文档和4000多种分类上,实验取得了科技新闻85.3%的识别准确率和非科技新闻82.9%的识别率,为Web科技新闻分类抽取提供有实用价值的参考模型。There are a lot of non-scientific-related news on Websites. In order to improve the useful value for the news information,a novel multilevel dichotomous model of text automatic categorization extraction system for technology news based on TF-IDF was designed and implemented. The news offered by government news website and Phoenix as the research background in scientific news categorization extraction. Experiments showed a85. 3 percent accuracy for scientific-related news and 82. 9 percent recognition rate for nonscientific-related news respectively in the test containing two hundred thousand documents and more than four thousand news classifications. The results showed that the proposed method offered a useful reference model on website scientific intelligence.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.191.255.7