一种基于上下文索引的文本匹配框架  被引量:1

A context-aware index based text extraction framework

在线阅读下载全文

作  者:金苍宏[1] 吴明晖[2] 应晶[1,2] 

机构地区:[1]浙江大学计算机学院,浙江杭州310027 [2]浙江大学城市学院计算机科学与工程学系,浙江杭州310015

出  处:《浙江大学学报(工学版)》2013年第9期1537-1546,共10页Journal of Zhejiang University:Engineering Science

基  金:国家科技重大专项课题资助项目(2011ZX0302-004-002);浙江省重点创新团队资助项目(2010R50009);清华-腾讯互联网创新技术基金资助项目(2011-8)

摘  要:为了提高信息挖掘方法的效率和动态性,支持在线定义知识提取模式,提出一种快速文本匹配框架.该框架包括上下文索引、上下文挖掘语言、上下文匹配算法等模块.框架从索引中直接获得提取内容的上下文信息,无需依赖文本过滤,从而提高信息提取性能.理论分析和实验表明:本框架提取方法同文本提取方法、倒排提取方法等相比,其运行时间在不同大小和结构的数据集上更为稳定高效,提取模式的长度对本框架的影响较小,因此,适合海量数据的在线提取.In order to promote the efficiency of text extraction and the dynamicity of specified pattern and to support on-line extraction pattern definition, a novel extraction framework, that including context-aware indexes, context related extract language and match algorithms, was proposed. This framework can directly extract the query context regardless the text comparison, which improves the extraction performance. The analysis and experimental results show that this framework, compared with the documents parsing approaches and the inverted indexes based approaches, has stable running time and better performance on different sizes and formats corpuses. In additional, the influence of length of extraction pattern in this framework was low. Consequently, this framework supports on-line information extraction over large data corpus.

关 键 词:上下文索引 上下文挖掘语言 文本提取 提取框架 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象