检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京工业大学计算机学院多媒体与智能软件技术实验室,北京100022
出 处:《北京工业大学学报》2005年第2期199-203,共5页Journal of Beijing University of Technology
基 金:国家自然科学基金资助项目(60173014)北京市自然科学基金资助项目(4022003).
摘 要:为了对半结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词的模式匹配约束.试验表明:在特征简单的抽取规则学习中,该方法精确度与召回率可达100%.在特征比较复杂的抽取规则学习中,该方法F1评估值也能达到80%以上.A new information extraction method which is based on Boosting algorithm is provided. It can automatically generate a rule based on an training instance. This rule is applied to training set and change the probability distribution on the weights of positive examples. Next instance will be selected from training set based on this distribution. A constraint named mode-match which can describe words that do not accord with lexical rules is provided too. As experiments show, for the texts with simple characters, both recall and precision can be achieved to 100%. Even for the texts with complex characters, the evaluation of F1 can be achieved to 80%.
关 键 词:BOOSTING算法 抽取规则 半结构化文本
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.217.252.137