半结构化数据的形式化描述及数据抽取方法研究  被引量:3

RESEARCH ON FORMAL DESCRIPTION OF SEMI-STRUCTURED DATA AND DATA EXTRACTION METHOD

在线阅读下载全文

作  者:李亚红[1] 赵冬玲[2] 

机构地区:[1]南阳理工学院计算机与信息工程学院,河南南阳473004 [2]济源职业技术学院,河南济源454650

出  处:《计算机应用与软件》2013年第4期145-148,共4页Computer Applications and Software

基  金:河南省教育厅自然科学研究计划项目(2010C520007)

摘  要:半结构化数据的形式化描述和信息抽取是解决用户查询和信息获取的核心问题。随着信息资源的多样化和快速膨胀,现有的描述和抽取方法存在召回率和查准率低等缺陷。为解决此问题,提出一种新的半结构数据形式化描述方法,重新定义领域概念集和领域知识集,并在此基础上给出领域概念集、领域知识集的构建过程,包括领域概念的自动抽取、领域知识集关系自动构建和相似度算法描述。实验结果表明,所提出的描述方法比现有方法具有更高召回率和查准率,具有很好的可行性和有效性。Formal description and data extraction of semi-structured data are the core issues in solving user query and information access.Along with the information resources diversification and rapid expansion,existing description and extraction method have the defects in low recall rate and precision rate.In order to solve them,a new formal description method of semi-structure data is provided in this paper,the domain concept set and the domain knowledge set is redefined.Based on it,the construction process of domain concept set and domain knowledge set are given,including domain concept automatic extraction,domain knowledge sets automatic construction and the similarity algorithm description.Experimental results show that the proposed method has higher recall and precision than the existing method,and has very good feasibility and validity.

关 键 词:半结构数据 形式化描述 领域概念集 领域知识集 数据抽取 

分 类 号:TP392[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象