针对开源论坛网页的信息抽取研究  被引量:11

Information Extraction Research Aimed at Open Source Web Pages

在线阅读下载全文

作  者:刘春梅[1,2] 郭岩[1] 俞晓明[1] 赵岭[1] 刘悦[1] 程学旗[1] LIU Chunmei;GUO Yan;YU Xiaoming;ZHAO Ling;LIU Yue;CHENG Xueqi(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100190, China)

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学,北京100190

出  处:《计算机科学与探索》2017年第1期114-123,共10页Journal of Frontiers of Computer Science and Technology

基  金:国家重点基础研究发展计划(973计划);国家高技术研究发展计划(863计划);国家自然科学基金;国家科技支撑计划;山东省自主创新及成果转化专项;中科院医学影像项目;欧盟第七科技框架计划(FP7)项目~~

摘  要:互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。There is a large proportion of forum Web pages generated by open source software. This paper proposes an information extraction method aimed at open source Web pages based on templates. Firstly, a clustering strategy based on the similarity of Web page structure is proposed. The experiment results show that the strategy is superior to the direct classification based on software version. Secondly, a clustering algorithm based on open source softwarefeatures is proposed. It can cluster large-scale open source forum Web pages based on similarity automatically,and form a marked category. This method not only sharply decreases manual cost on annotation templates, but also increases the accuracy of information extraction.

关 键 词:记录定位 网页聚类 模板抽取 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象