社会媒体网页内容的分割与抽取  

Segmentation and Extraction for Social Media Web Page Content

在线阅读下载全文

作  者:解姝[1] 叶施仁[2] 肖春[1] 

机构地区:[1]湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411105 [2]常州大学信息学院,江苏常州213164

出  处:《计算机工程》2011年第21期155-158,共4页Computer Engineering

摘  要:为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。This paper presents a segmentation and extraction method which does not need any hand-crafted rules and training examples for content-rich pages in social media.It identifies the frequent blocks in page by using k-means algorithm and obtains a collection of frequent clusters.It identifies the topic frequent clusters and induces extraction rules from the frequent blocks in topic frequent clusters through self-supervised approach.Experimental results show that it is efficient and robust for social media Web pages with various styles and layouts with high precision and recall rate.

关 键 词:社会媒体 DOM结构 K-MEANS算法 自学习 抽取规则 网页内容抽取 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象