主题网页标签树邻接矩阵识别算法研究  被引量:2

Research on Recognition Algorithm for Subject Web Pages Based on Tag Tree Adjacency Matrix

在线阅读下载全文

作  者:宋军[1] 杨晓夫 李益才[1] 王家伟[1] 

机构地区:[1]重庆交通大学信息科学与工程学院,重庆400074

出  处:《计算机科学》2016年第6期316-320,共5页Computer Science

基  金:国家自然科学基金(61573076)资助

摘  要:随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。With the development of Web program technology, the same type subject pages can show the same visual feature information of the Web page by using different HTML tags, resulting in existing Web structure similarity algorithm which measures the structure similarity of the Web page base on matching the HTML tag name information can't accurately recognize the same type subject pages. So, we proposed a recognition algorithm for the same type subject pages based on the tag tree adjacency matri- This algorithm constructs Web page tag tree's adjacency matrix and recognizes the same type subject pages by computing the structure similarity between the Web pages through the tag tree adjacency matrix. The experimental results indicate that the optimal performance of the algorithm can reach 100% recall rate and 96% precision rate,and the average performance can reach 97% recall rate and 89% precision rate.

关 键 词:网页结构 HTML标签 标签树邻接矩阵 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象