基于链路压缩树的网页相似度研究  被引量:2

Study on Web Similarities Based on Path Pressed Tree

在线阅读下载全文

作  者:宋明秋[1] 张瑞雪[1] 

机构地区:[1]大连理工大学系统工程研究所,大连116023

出  处:《情报学报》2012年第1期40-46,共7页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金资助项目(70671016).

摘  要:大多网页都是基于服务器端模板生成的,所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言,每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有很多,本文从DOM树中的链路结构的角度来研究不同网页间的相似性,并提出了基于链路压缩树的结构相似度度量模型。本文中的计算方法都用Python语言实现。通过实验,本文使用多种方法对不同网页间的相似度进行了计算和分析,实验数据表明,基于链路压缩树的结构相似度度量模型具有较好的适用性,其速度是传统方法不可比拟的。Most web pages are generated from templates on servers. As a result, many pages from the same site always look with the same appearance and the similar contents. HTML is a kind of semi-structured mark-up language, and each HTML page has a DOM tree structure. Similarity in structure between web pages is defined as structural similarity, and there are many methods of researching this similarity. From the perspective of D0M path structure, this paper has studied the similarity between two web pages, and proposed a new model of calculating structural similarity based on path pressed trees. All of algorithms in this paper are implemented by Python. We have calculated and analyzed the similarity between different web pages through experiment, which shows that our model of calculating structural similarity is of stronger applicability and the speed is unparalleled in the traditional method.

关 键 词:网页结构 链路相似度 结构相似度 链路压缩树 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象