陈爽

作品数:3被引量:2H指数:1
导出分析报告
供职机构:西北工业大学计算机学院更多>>
发文主题:抽取HTML解析DOM信息抽取新闻网页更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《燕山大学学报》《北京石油化工学院学报》《计算机工程与应用》更多>>
所获基金:国家自然科学基金北京市自然科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-3
视图:
排序:
一种抽取新闻网页结构化数据的方法被引量:1
《燕山大学学报》2007年第6期485-488,共4页陈爽 李先国 陈福 李素 
国家自然科学基金(No.60673160)
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反...
关键词:信息抽取 HTML解析 DOM 标签补偿 噪声标记 
一种启发式网络信息采集系统设计与实现
《北京石油化工学院学报》2007年第4期38-42,共5页陈爽 陈福 杜天苍 
国家自然科学基金资助项目;项目号:60673160
为解决目前网络信息采集中信息主题单一与垃圾信息过多的问题,讨论了一种半人工监督的启发式采集系统。用户向系统提交同一个主题的一组关键词后,系统自动合并多个搜索引擎返回的结果,从而构成一个有序的文档集合。对这个集合利用后缀...
关键词:后缀树 聚类 支持向量机 分类 逆向文件频率 
网页链接繁殖在搜索引擎资源发现中的应用被引量:1
《计算机工程与应用》2007年第36期177-180,共4页陈爽 钱榕 陈福 李素 
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60673160);北京市自然科学基金(the NaturalScience Foundation of Beijing of China under Grant No.402200)
为解决搜索引擎返回结果数量上的限制,扩展了元搜索技术,提出链接群落、链接繁殖的概念,并与生物群落进行了对比。链接繁殖的思想是首先将多个搜索引擎返回的结果作为起始信息源,利用预定义的繁殖规则,优化并整合搜索结果,对链接所指网...
关键词:主题发现 元搜索 链接分析 链接繁殖 
检索报告 对象比较 聚类工具 使用帮助 返回顶部