抽取规则

作品数:76被引量:244H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:陈少飞姜瑛汪东升徐涛杨文柱更多>>
相关机构:信息技术有限公司国家电网有限公司南京大学北京神州泰岳软件股份有限公司更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划国家社会科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程x
条 记 录,以下是1-5
视图:
排序:
社会媒体网页内容的分割与抽取
《计算机工程》2011年第21期155-158,共4页解姝 叶施仁 肖春 
为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社...
关键词:社会媒体 DOM结构 K-MEANS算法 自学习 抽取规则 网页内容抽取 
航班信息抽取规则的自动生成技术被引量:2
《计算机工程》2011年第6期65-67,共3页张志远 徐涛 冯霞 
国家"863"计划基金资助重点项目(2006AA12A106);中国民航大学科研基金资助项目(07kym04)
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,...
关键词:WEB信息提取 抽取规则 语义TABLE树 贪心算法 
一种从海量不完备决策表中抽取规则的方法被引量:3
《计算机工程》2008年第6期67-69,共3页王树锋 吴耿锋 潘建国 
提出了一种处理海量的不完备决策表的方法。将基于互信息的属性重要度作为启发式信息,利用遗传算法对不完备的原始决策表中的条件属性进行约简,形成包含missing值的决策表,称为优化决策表。利用原始决策表自身的信息,通过属性扩展,从优...
关键词:粗糙集 不完备决策表 互信息 不规则决策规则 
基于Web的新闻信息抽取被引量:11
《计算机工程》2006年第10期74-76,共3页朱永盛 武港山 
国家"863"计划基金资助项目(2002AA117010-10)
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提...
关键词:信息抽取 包装器 DOM 抽取规则 
多信息块Web页面中的抽取规则被引量:6
《计算机工程》2003年第9期42-44,50,共4页王庆一 王继成 周源远 袁春风 
国家自然科学基金项目(60073030);国家高技术研究发展计划"863"计划项目(2001AA114041)
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规...
关键词:Web 信息抽取 包装器 抽取规则 信息集成 
检索报告 对象比较 聚类工具 使用帮助 返回顶部