一种基于DOM的Web关键信息提取方法  被引量:3

A Method of Extracting Web Key Information Based on DOM

在线阅读下载全文

作  者:张云雷[1] 周军[2] 刘海霞[2] 

机构地区:[1]海口经济学院信息工程学院,海口570203 [2]辽宁工业大学电子与信息工程学院,锦州121001

出  处:《现代计算机(中旬刊)》2011年第6期3-6,共4页Modern Computer

基  金:国家自然科学基金(No.60674056);辽宁省教育厅基金资助项目(No.20031066)

摘  要:提出一种提取Web中的菜单和导航指示器等关键信息的方法,首先利用由W3C提出的文档对象模型技术提取出关键信息和与关键信息结构相似的其他信息,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正关键信息。实验结果验证了方法的有效性。Proposes a method extracting menu or navigation indicator form Web pages.Firstly,extracts key information and information similar to key information by using document object model technology proposed by W3C.This information is merged into information list.Then key information is recognized from information list by using entropy.The result of experiment indicates the efficiency of the method.

关 键 词:WEB内容挖掘 信息提取 关键信息 DOM 

分 类 号:TP399[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象