检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]重庆交通大学信息科学与工程学院,重庆400074
出 处:《计算机科学》2016年第6期316-320,共5页Computer Science
基 金:国家自然科学基金(61573076)资助
摘 要:随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。With the development of Web program technology, the same type subject pages can show the same visual feature information of the Web page by using different HTML tags, resulting in existing Web structure similarity algorithm which measures the structure similarity of the Web page base on matching the HTML tag name information can't accurately recognize the same type subject pages. So, we proposed a recognition algorithm for the same type subject pages based on the tag tree adjacency matri- This algorithm constructs Web page tag tree's adjacency matrix and recognizes the same type subject pages by computing the structure similarity between the Web pages through the tag tree adjacency matrix. The experimental results indicate that the optimal performance of the algorithm can reach 100% recall rate and 96% precision rate,and the average performance can reach 97% recall rate and 89% precision rate.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38