一种基于树匹配的网页语义块挖掘算法  被引量:7

Algorithm for Webpage Semantic Blocks Mining Using Tree Match Method

在线阅读下载全文

作  者:刘守群[1] 朱明[1] 谭晓彬[1] 

机构地区:[1]中国科学技术大学安徽省网络传播系统与控制重点实验室,安徽合肥230027

出  处:《小型微型计算机系统》2009年第8期1541-1545,共5页Journal of Chinese Computer Systems

基  金:国家"八六三"高技术研究发展计划基金项目(2006AA01Z449)资助;国家"八六三"高技术研究发展计划基金项目(2008AA01Z408)资助

摘  要:在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善.In the WWW, many web documents are combined with various semantic regions. Discovery and mining such regions has a significant effort for web page analysis, user browser experience improvement, etc. But because of the difference of web page structure and content among large amounts of web pages, it is hard to detect such common regions effectively and correctly, traditional matching methods such as regular expression are not suitable for this problem. This paper proposes a region detection method based on tree match algorithm. As is shown according the experiments, the method this paper described improves F-Measure value, besides this method also reduces computation cost.

关 键 词:编辑距离 树匹配 数据挖掘 剪枝 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象