安增文

作品数:2被引量:19H指数:2
导出分析报告
供职机构:中国石油大学(华东)计算机与通信工程学院更多>>
发文主题:信息提取网页正文页面分块视觉特征统计学习更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-2
视图:
排序:
基于机器学习的网页正文提取方法被引量:7
《微型机与应用》2010年第12期4-6,共3页安增文 王超 徐杰锋 
先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。
关键词:信息提取 神经网络 统计学习 
基于视觉特征的网页正文提取方法研究被引量:13
《微型机与应用》2010年第3期38-41,共4页安增文 徐杰锋 
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是...
关键词:页面分块 信息提取 视觉特征 
检索报告 对象比较 聚类工具 使用帮助 返回顶部