基于标记树的XML文档自动分类研究  被引量:5

XML Documents Classification Based on Labeled Tree

在线阅读下载全文

作  者:潘有能[1] 丁楠[1] 

机构地区:[1]浙江大学信息资源管理系,杭州310028

出  处:《情报学报》2007年第3期350-355,共6页Journal of the China Society for Scientific and Technical Information

基  金:本文为浙江大学“曙光”青年项目(205000.362221)和浙江省教育厅资助项目(205204.F30501)研究成果.

摘  要:本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。This paper introduces the method to generate labeled trees from XML documents and DTD, and expands the concept of node to make it suitable for both elements and operators of DTD. Then we divide the elements of labeled trees into three types: common elements, document elements and DTD elements. Level weight and structure weight are given to weigh the level of elements and the complexity of structures. Based on these studies, an algorithm is presented to compute the similarity between a XML document and a DTD, and is used in the classification of XML documents. From the results of our tests, this method has a better veracity.

关 键 词:文本分类 XML文档 层次权重 结构权重 

分 类 号:TP311.132[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象