基于XML和N层VSM的Web信息检索  被引量:4

Web Information Retrieval Based on XML and N-level VSM

在线阅读下载全文

作  者:张冉[1] 卡米力.毛依丁 

机构地区:[1]新疆大学信息工程学院计算机系,新疆乌鲁木齐830046

出  处:《计算机技术与发展》2006年第5期56-58,共3页Computer Technology and Development

摘  要:基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。XML documents have well form, clear levels and analyses the structure easily. Convert HTML documents on Web into XML document, so can use DOM tree in Java to analyse the hierarchy of the documents. The documents can be divided into N level text paragraphs' content,which are represented by index term vectors, Using this method improve traditional vector space model, the N level VSM is achieved. And proved by the experiment, both recall and precision of the N level VSM are performing well than the traditional VSM.

关 键 词:XML XHTML N层向量空间模型 查全率 查准率 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象