一种短正文网页的正文自动化抽取方法  被引量:2

A Content Extraction Method for Short Web Pages

在线阅读下载全文

作  者:郗家贞 郭岩[1] 黎强 赵岭[1] 刘悦[1] 俞晓明[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京100190 [2]中国科学院大学,北京100080

出  处:《中文信息学报》2016年第1期8-15,共8页Journal of Chinese Information Processing

基  金:国家重点基础研究发展计划(973)(2014CB340401;2013CB329602);国家自然科学基金重点项目(61232010);国家科技支撑专项(2012BAH39B04)

摘  要:随着互联网的发展,网页形式日趋多变。短正文网页日益增多,传统的网页正文自动化抽取方式对短正文网页抽取效果较差。针对以上问题,该文提出一种单记录(新闻、博客等)、短正文网页的正文自动化抽取方法,在该方法中,首先利用短正文网页分类算法对网页进行分类,然后针对短正文网页,使用基于页面深度以及文本密度的正文抽取算法抽取正文。To deal with the ever-growing short content web pages,this paper puts forward to first classify the web pages into two types:short content pages and long content pages.Then,an algorithm for content extraction from short content web pages is designed by combining DOM tree depth and text density.

关 键 词:短正文 正文抽取 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象