检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京交通大学计算机与信息技术学院,北京100044
出 处:《计算机与现代化》2017年第1期5-12,共8页Computer and Modernization
基 金:中央高校基本科研业务费专项资金资助项目(2015JBM035)
摘 要:从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础。本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音。同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间。实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显著的提高,具有重要的实际应用价值。Extracting high-purity news from large Web pages,and stored in a structured form is the research foundation of the public opinion monitoring and topical updating. This paper proposes a Web news extraction method based on filtering noise wrapper. When inducing the wrapper,if the two strings don't match each other,according to the threshold,we calculate the string tag path ratio of the strings to distinguish purity news from noise. At the same time,we propose two naive Bayes classifiers to extract the title and time of the news. Experimental results show that compared with other extraction technologies,the method in this paper has significant improvement in terms of accuracy and robustness. So it has greatly utility value.
关 键 词:信息抽取 包装器 新闻网页 ACME算法 字符串标签路径比 朴素贝叶斯分类器
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3