基于网站拓扑的网页内容精化算法  被引量:1

Web Content Refining Algorithm Based on Website Topological Information

在线阅读下载全文

作  者:李锋[1] 

机构地区:[1]华南理工大学工商管理学院,广州510640

出  处:《计算机工程》2007年第21期50-51,54,共3页Computer Engineering

基  金:国家自然科学基金资助项目(70472041);广州市哲学社会科学发展"十一五"规划基金资助项目

摘  要:通过对网页中无关信息分布特点和模式的分析,提出了一种新颖的网页内容精化算法——基于网站拓扑信息的网页无关内容识别与剔除算法。该算法在对网页内容进行分区后,认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除。测试结果表明,该算法具有较高的识别率及精度。Based on the observation and analysis of occurrence of the type of trivial information inside Web pages, this paper proposes a website topology based Web content refining algorithm. The algorithm partitions the content of web page into five sections, and then prunes the sections which have the same contents with the father node of Web page in website graph representation. Experimental results show the algorithm has a high ratio of precise and recall.

关 键 词:网页内容精化 信息提取 网站拓扑 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象