基于字典匹配和支持向量机的中文科技论文元数据抽取  被引量:3

Metadata Extraction from Chinese Papers Based on Dictionary Matching and Support Vector Machine

在线阅读下载全文

作  者:刘宇[1] 钱跃[1] 

机构地区:[1]大连理工大学软件学院,大连116600

出  处:《工程数学学报》2012年第4期586-592,共7页Chinese Journal of Engineering Mathematics

基  金:国家自然科学基金(60803074);中央高校基本科研业务费专项资金(DUT10JR06)~~

摘  要:针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论文元数据.实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型.For the problem of Chinese PDF format papers' metadata extraction, by means of analyzing a large number of Chinese scientific papers, we attain the conclusion that Chinese papers metadata are no inclusion relative, exclusive, repetitive, sequential, and integrant deterministic. Based on these properties, this paper defines simple metadata and complex metadata, and then uses dictionary matching and support vector machine models to extract the beneficial information from Chinese scientific paper metadata. The experimental result shows that the comprehensive performance index of this model is more than 96%, which is superior to conditional random fields model and hidden Markov model.

关 键 词:元数据抽取 抽取模型 字典匹配 支持向量机 中文科技论文 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象