检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新疆大学信息工程学院计算机系,新疆乌鲁木齐830046
出 处:《计算机技术与发展》2006年第5期56-58,共3页Computer Technology and Development
摘 要:基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。XML documents have well form, clear levels and analyses the structure easily. Convert HTML documents on Web into XML document, so can use DOM tree in Java to analyse the hierarchy of the documents. The documents can be divided into N level text paragraphs' content,which are represented by index term vectors, Using this method improve traditional vector space model, the N level VSM is achieved. And proved by the experiment, both recall and precision of the N level VSM are performing well than the traditional VSM.
关 键 词:XML XHTML N层向量空间模型 查全率 查准率
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222