检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:魏东平[1] 马弋惠 WEI Dong-ping;MA Yi-hui(Collage of Computer Science and Technology,China University of Petroleum(East China),Qingdao,Shandong 266580,China)
机构地区:[1]中国石油大学(华东)计算机科学与技术学院,山东青岛266580
出 处:《计算技术与自动化》2020年第3期91-96,共6页Computing Technology and Automation
摘 要:XML文档分类技术可以高效地管理海量存在的数据,XML文档同时拥有结构信息和文本信息。为充分利用XML特点,优化分类效果,在结构链接表达模型(structured link vector model,简称SLVM)的基础上,提出了一种新的特征表达方法,即P-SLVM表达模型。该模型在传统的tf*idf的权重设置方式基础上,根据特征词在类中的分布情况,对特征词权重设置进行改进,同时利用泊松分布理论、特征词所在位置等对结构单元进行加权,以更为有效地表达结构信息和内容信息。实验结果表明,在P-SLVM表达模型下进行的XML文档的分类,有更好的分类效果。XML document classification technology can efficiently manage massive data,XML documents have both structural and textual information.In order to make full use of the characteristics of XML and optimize the classification effect,this paper proposes a new feature expression method based on structured link vector model(SLVM),namely P-SLVM expression model.Based on the tradi tional tf*idf weight setting method,the model improves the feature word weight setting according to the distribution of feature words in the class,and uses the Poisson distribution theory and the location of the feature words to weight the structural units.To more effective ly express structural information and content information.The experimental results show that the classification of XML documents un der the P-SLVMexpression model has a better classification effect.
关 键 词:XML文档 分类 结构链接模型 tf*idf 泊松分布
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33