可扩展的网页关键信息抽取研究  被引量:3

Research on Extensible Web Key Information Extraction

在线阅读下载全文

作  者:郭少华[1,2] 郭岩[1] 李海燕[1] 刘悦[1] 张瑾[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所,北京100190 [2]中国科学院大学,北京100049

出  处:《中文信息学报》2015年第1期97-103,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金(61100083);国家863计划基金(2012AA011003)

摘  要:该文提出了一种可扩展的网页关键信息抽取框架。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率。该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性。同时,该文还提出了模板的正交过滤算法。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性。实验结果验证了上述结论。An extensible framework of web key information extraction is presented in this paper. This framework combine automatic information extraction algorithms and template detection algorithms, essentially improving the precision and efficiency of extraction. Some key parts of this framework can be replaced as required, therefore it has excellent extensibility. Furthermore, this paper also describes an orthogonal filter algorithm, Which improves the precision of template generation. And the experiments provide positive results for this method.

关 键 词:关键信息 信息抽取 可扩展框架 正交过滤 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象