徐杰锋

作品数:3被引量:20H指数:2
导出分析报告
供职机构:中国石油大学(华东)计算机与通信工程学院更多>>
发文主题:信息提取网页正文页面分块视觉特征统计学习更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-3
视图:
排序:
基于CURE算法的网页分块及正文块提取研究被引量:1
《微型机与应用》2012年第12期11-14,共4页王超 徐杰锋 
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信...
关键词:WEB信息抽取 聚类算法 页面分块 正文块提取 
基于机器学习的网页正文提取方法被引量:7
《微型机与应用》2010年第12期4-6,共3页安增文 王超 徐杰锋 
先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。
关键词:信息提取 神经网络 统计学习 
基于视觉特征的网页正文提取方法研究被引量:13
《微型机与应用》2010年第3期38-41,共4页安增文 徐杰锋 
利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是...
关键词:页面分块 信息提取 视觉特征 
检索报告 对象比较 聚类工具 使用帮助 返回顶部