面向主题的网页采集系统的设计与研究  被引量:3

Research on Subject Oriented Web Information Acquisition System

在线阅读下载全文

作  者:王煜[1] 张浩斌[2] 

机构地区:[1]浙江金融职业学院,杭州310018 [2]浙江工商大学计算机与信息工程学院,杭州310018

出  处:《计算机与数字工程》2008年第4期78-80,93,共4页Computer & Digital Engineering

摘  要:对面向主题的信息采集技术进行了探索性研究。采用基于DOM的信息抽取技术,建立混合空间模型表示内容和结构特征信息,并通过定义网页间相似性来识别主题页面。较好的处理了Web信息抽取中主题页面识别的问题,实验结果证明了系统的可行性。An explorative study on subject oriented web information acquisition techniques is provided. Based on DOM Web information technology, a hybrid vector space model (HVSM) is brought up to represent text contents and structure characters of web pages. Defining the similarity between pages identifies the subject oriented web pages. The problem of identifying subject oriented web pages in web information extraction has been solved. The experiment proved the feasibility of the system.

关 键 词:面向主题 混合向量空间模型 相似性 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象