基于主题型页面的正文信息抽取技术研究  被引量:1

在线阅读下载全文

作  者:万文兵 

机构地区:[1]仪征技师学院,江苏仪征211400

出  处:《计算机光盘软件与应用》2015年第1期15-16,共2页Computer CD Software and Application

摘  要:Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。

关 键 词:主题型页面 网页标题 正文抽取 

分 类 号:TP311.12[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象