基于字典匹配和支持向量机的中文科技论文元数据抽取被引量：3

Metadata Extraction from Chinese Papers Based on Dictionary Matching and Support Vector Machine

出　　处：《工程数学学报》2012年第4期586-592,共7页Chinese Journal of Engineering Mathematics

基　　金：国家自然科学基金(60803074);中央高校基本科研业务费专项资金(DUT10JR06)~~

摘　　要：针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论文元数据.实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型.For the problem of Chinese PDF format papers＇ metadata extraction, by means of analyzing a large number of Chinese scientific papers, we attain the conclusion that Chinese papers metadata are no inclusion relative, exclusive, repetitive, sequential, and integrant deterministic. Based on these properties, this paper defines simple metadata and complex metadata, and then uses dictionary matching and support vector machine models to extract the beneficial information from Chinese scientific paper metadata. The experimental result shows that the comprehensive performance index of this model is more than 96%, which is superior to conditional random fields model and hidden Markov model.

关键词：元数据抽取抽取模型字典匹配支持向量机中文科技论文

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于字典匹配和支持向量机的中文科技论文元数据抽取被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于字典匹配和支持向量机的中文科技论文元数据抽取 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于字典匹配和支持向量机的中文科技论文元数据抽取被引量：3