检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江大学公共管理学院信息资源管理系,杭州310027
出 处:《情报学报》2012年第5期508-514,共7页Journal of the China Society for Scientific and Technical Information
基 金:本文为国家自然科学基金项目"基于标记树的XML文档自动聚类和分类研究"(70803046)的研究成果.
摘 要:近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.XML gradually became a standard for data representation and data exchange in Internet due to its advantage of simplicity, semi-structuredness, extensibility and self-description. XML documents clustering is an important topic in the field of data mining, provides support to the collecting, organization and retrieving of web information resource. The authors introduce the popular XML documents clustering algorithm, and makes use of word sense disambiguation which is based on the WordNet to disambiguate the tags in XML documents. Then the authors propose a new XML documents similarity calculating method based on semantic tag tree, and cluster using KNN algorithm. At last, the authors make the experiment of the documents clustering on the data sets of XML, which approves that this method is effective for XML documents clustering.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229