社会媒体网页内容的分割与抽取

Segmentation and Extraction for Social Media Web Page Content

机构地区：[1]湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411105 [2]常州大学信息学院,江苏常州213164

出　　处：《计算机工程》2011年第21期155-158,共4页Computer Engineering

摘　　要：为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。This paper presents a segmentation and extraction method which does not need any hand-crafted rules and training examples for content-rich pages in social media.It identifies the frequent blocks in page by using k-means algorithm and obtains a collection of frequent clusters.It identifies the topic frequent clusters and induces extraction rules from the frequent blocks in topic frequent clusters through self-supervised approach.Experimental results show that it is efficient and robust for social media Web pages with various styles and layouts with high precision and recall rate.

关键词：社会媒体 DOM结构 K-MEANS算法自学习抽取规则网页内容抽取

分类号：TP393[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

社会媒体网页内容的分割与抽取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

社会媒体网页内容的分割与抽取

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索