检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新乡学院计算机与信息工程学院
出 处:《内江科技》2016年第7期36-37,共2页
基 金:河南省高等学校青年骨干教师培养计划(2013GGJS-222);河南省教育厅河南省高等学校重点科研项目(15A520093)
摘 要:在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。
关 键 词:Web数据 数据抽取 贝叶斯算法 抽取算法 朴素贝叶斯 分类研究 数据区域 抽取方法 抽取规则 信息分类
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31