检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘春梅[1,2] 郭岩[1] 俞晓明[1] 赵岭[1] 刘悦[1] 程学旗[1] LIU Chunmei;GUO Yan;YU Xiaoming;ZHAO Ling;LIU Yue;CHENG Xueqi(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;University of Chinese Academy of Sciences, Beijing 100190, China)
机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学,北京100190
出 处:《计算机科学与探索》2017年第1期114-123,共10页Journal of Frontiers of Computer Science and Technology
基 金:国家重点基础研究发展计划(973计划);国家高技术研究发展计划(863计划);国家自然科学基金;国家科技支撑计划;山东省自主创新及成果转化专项;中科院医学影像项目;欧盟第七科技框架计划(FP7)项目~~
摘 要:互联网上大量论坛使用开源软件生成,针对这类论坛,提出了针对论坛网页信息抽取的基于模板的信息抽取方法。首先给出了基于网页结构相似度的簇划分策略,并通过实验证明了该策略优于直接基于软件版本号等直观类别的划分策略;其次提出了基于开源软件特征的聚类算法,能够根据网页相似度将大规模开源软件生成的论坛网页进行有效的自动划分,形成可标注类别。实验表明,该方法不仅保持了基于模板的抽取方法所具有的高准确率的优点,同时弥补了其模板配置与维护代价高的缺点。There is a large proportion of forum Web pages generated by open source software. This paper proposes an information extraction method aimed at open source Web pages based on templates. Firstly, a clustering strategy based on the similarity of Web page structure is proposed. The experiment results show that the strategy is superior to the direct classification based on software version. Secondly, a clustering algorithm based on open source softwarefeatures is proposed. It can cluster large-scale open source forum Web pages based on similarity automatically,and form a marked category. This method not only sharply decreases manual cost on annotation templates, but also increases the accuracy of information extraction.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28