检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:柏志安[1] 廖健[2] 曾剑平[2] Bai Zhian;Liao Jian;Zeng Jianping(Computer Center,Ruijin Hospital Shanghai Jiao Tong University School of Medicine,Shanghai 200025,China;School of Computer Science,Fudan University,Shanghai 200433,China)
机构地区:[1]上海交通大学医学院附属瑞金医院信息中心,上海200025 [2]复旦大学计算机科学技术学院,上海200433
出 处:《计算机应用与软件》2022年第8期15-20,81,共7页Computer Applications and Software
摘 要:针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则。实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能。Aiming at the characteristics of forum pages,including the repeated tags and specific patterns of text,we propose an adaptive information extraction algorithm based on DOM trees and templates.Based on similar subtrees with common parent nodes,we proposed an extraction rule generation method that could generate,filter,and segment candidate sets.The algorithm adapted to the changes in the structure of forum pages,and automatically generated new extraction rules when the structure change.The results prove that this method can effectively generate extraction rules for the information extraction of forums and achieve better performance than traditional ones on different forums pages and corresponding revised pages.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46