检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]解放军理工大学通信工程学院,江苏南京210007 [2]东南大学计算机科学与工程系,江苏南京210096
出 处:《电子学报》2004年第11期1915-1917,共3页Acta Electronica Sinica
基 金:国家自然科学基金 (No .60 30 30 2 4 )
摘 要:提出一种基于竞争分类的Web信息抽取方法 ,以信息片段与样本之间的相似度作为竞争力 ,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤 ,直接从分类的角度抽取Web信息 .较之基于规则的信息抽取方法 ,竞争分类法只需用户提供少量的标记样本 .测试表明 ,该方法在没有用户提供特征提示信息的情况下 ,抽取信息仍能保持较高的准确率 ,适应性强 ;对数据项缺失和顺序变化较大的数据源 。A competing classification method is presented to extract Web information. The method uses similarity between information fragments and samples as competing ability. It classifies fragments and filters out noise information through competition of fragments for template slots. It needs far less tagged samples than those using rules to extract information. Experiments show that the method keeps high precision of information extraction without any feature clues provided by users. Therefore it is adaptive. The competing classification method is also robust in dealing with data sources having missing items and items of various orders.
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229