检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411105 [2]常州大学信息学院,江苏常州213164
出 处:《计算机工程》2011年第21期155-158,共4页Computer Engineering
摘 要:为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。This paper presents a segmentation and extraction method which does not need any hand-crafted rules and training examples for content-rich pages in social media.It identifies the frequent blocks in page by using k-means algorithm and obtains a collection of frequent clusters.It identifies the topic frequent clusters and induces extraction rules from the frequent blocks in topic frequent clusters through self-supervised approach.Experimental results show that it is efficient and robust for social media Web pages with various styles and layouts with high precision and recall rate.
关 键 词:社会媒体 DOM结构 K-MEANS算法 自学习 抽取规则 网页内容抽取
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.15.148.76