检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学技术大学安徽省网络传播系统与控制重点实验室,安徽合肥230027
出 处:《小型微型计算机系统》2009年第8期1541-1545,共5页Journal of Chinese Computer Systems
基 金:国家"八六三"高技术研究发展计划基金项目(2006AA01Z449)资助;国家"八六三"高技术研究发展计划基金项目(2008AA01Z408)资助
摘 要:在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善.In the WWW, many web documents are combined with various semantic regions. Discovery and mining such regions has a significant effort for web page analysis, user browser experience improvement, etc. But because of the difference of web page structure and content among large amounts of web pages, it is hard to detect such common regions effectively and correctly, traditional matching methods such as regular expression are not suitable for this problem. This paper proposes a region detection method based on tree match algorithm. As is shown according the experiments, the method this paper described improves F-Measure value, besides this method also reduces computation cost.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.62