检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郗家贞 郭岩[1] 黎强 赵岭[1] 刘悦[1] 俞晓明[1] 程学旗[1]
机构地区:[1]中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室,北京100190 [2]中国科学院大学,北京100080
出 处:《中文信息学报》2016年第1期8-15,共8页Journal of Chinese Information Processing
基 金:国家重点基础研究发展计划(973)(2014CB340401;2013CB329602);国家自然科学基金重点项目(61232010);国家科技支撑专项(2012BAH39B04)
摘 要:随着互联网的发展,网页形式日趋多变。短正文网页日益增多,传统的网页正文自动化抽取方式对短正文网页抽取效果较差。针对以上问题,该文提出一种单记录(新闻、博客等)、短正文网页的正文自动化抽取方法,在该方法中,首先利用短正文网页分类算法对网页进行分类,然后针对短正文网页,使用基于页面深度以及文本密度的正文抽取算法抽取正文。To deal with the ever-growing short content web pages,this paper puts forward to first classify the web pages into two types:short content pages and long content pages.Then,an algorithm for content extraction from short content web pages is designed by combining DOM tree depth and text density.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117