基于分块的新闻网页信息抽取算法  被引量:6

BLOCKING-BASED INFORMATION EXTRACTION ALGORITHM FOR WEBPAGE OF NEWS

在线阅读下载全文

作  者:姬鑫[1] 钟诚[1] 

机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004

出  处:《计算机应用与软件》2015年第4期317-322,共6页Computer Applications and Software

基  金:广西科学研究与技术开发计划项目(桂科能1140008-3B);广西研究生教育创新计划

摘  要:为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。To more thoroughly purge the noises in webpage and reduce the effect of webpage noises on accuracy of news content extraction, we propose two cleaning methods,the template page-based cleaning method for same noise blocks and the class attribute-based cleaning methodfor similar noise blocks and special noise blocks;based on that,by using the characteristic of webpage of news in contents layout structure,we present the beginning block and end block-based news content extraction algorithm.Experimental results show that compared with existing algorithm,the proposed algorithm has higher extraction accuracy rate and can adapt to the situation that the text content is stored in either single block or multiple blocks,and it effectively solves the extraction problem of shorter text content.

关 键 词:网页信息抽取 模板页 分块 相同噪音块 同类噪音块 特殊噪音块 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术] TP391.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象