检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:阎红灿[1,2] 王淑芬[3] 朱晓亮[3] 李敏强[1] 刘保相[2]
机构地区:[1]天津大学管理学院,天津300072 [2]河北理工大学理学院,河北唐山063009 [3]河北理工大学计算中心,河北唐山063009
出 处:《计算机应用研究》2009年第5期1706-1709,1722,共5页Application Research of Computers
基 金:河北省自然科学基金资助项目(F2006000377);高等学校博士学科点专项科研基金资助项目(20020056047)
摘 要:提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。This paper proposed a novel way of similarity measures for XML documents structure based on TreeMiner algorithm, and resolved the high costs in distance editing and the problems of repetiition of labels in path matching designed. In this way, a new research model : frequent structure vector model ( FSVM), derived the expression of document structure vector and weight function, and constructed the calculate formula to measure similarity of the two documents. In order to improve the efficiency of mining frequency subtrees in a forest, reformed the algorithm TreeMiner from data structure and miner procedure to fit to minning structure in large documents. The testing results show that this method acquires very high precision and veracity.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.219.218.77