基于竞争分类的Web信息抽取  被引量:2

Web Information Extraction by Competing Classification

在线阅读下载全文

作  者:李向阳[1] 陆建江[2] 张亚非[1] 

机构地区:[1]解放军理工大学通信工程学院,江苏南京210007 [2]东南大学计算机科学与工程系,江苏南京210096

出  处:《电子学报》2004年第11期1915-1917,共3页Acta Electronica Sinica

基  金:国家自然科学基金 (No .60 30 30 2 4 )

摘  要:提出一种基于竞争分类的Web信息抽取方法 ,以信息片段与样本之间的相似度作为竞争力 ,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤 ,直接从分类的角度抽取Web信息 .较之基于规则的信息抽取方法 ,竞争分类法只需用户提供少量的标记样本 .测试表明 ,该方法在没有用户提供特征提示信息的情况下 ,抽取信息仍能保持较高的准确率 ,适应性强 ;对数据项缺失和顺序变化较大的数据源 。A competing classification method is presented to extract Web information. The method uses similarity between information fragments and samples as competing ability. It classifies fragments and filters out noise information through competition of fragments for template slots. It needs far less tagged samples than those using rules to extract information. Experiments show that the method keeps high precision of information extraction without any feature clues provided by users. Therefore it is adaptive. The competing classification method is also robust in dealing with data sources having missing items and items of various orders.

关 键 词:信息抽取 竞争分类 特征提取 包装器生成 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象