检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《工程数学学报》2012年第4期586-592,共7页Chinese Journal of Engineering Mathematics
基 金:国家自然科学基金(60803074);中央高校基本科研业务费专项资金(DUT10JR06)~~
摘 要:针对中文PDF格式论文元数据抽取问题,对大量中文科技论文进行分析归纳,总结出中文论文元数据的互不包含性、排它性、重复性、顺序性和部分确定性,并据此定义简单元数据和复杂元数据的概念,应用字典匹配和支持向量机模型抽取中文科技论文元数据.实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型.For the problem of Chinese PDF format papers' metadata extraction, by means of analyzing a large number of Chinese scientific papers, we attain the conclusion that Chinese papers metadata are no inclusion relative, exclusive, repetitive, sequential, and integrant deterministic. Based on these properties, this paper defines simple metadata and complex metadata, and then uses dictionary matching and support vector machine models to extract the beneficial information from Chinese scientific paper metadata. The experimental result shows that the comprehensive performance index of this model is more than 96%, which is superior to conditional random fields model and hidden Markov model.
关 键 词:元数据抽取 抽取模型 字典匹配 支持向量机 中文科技论文
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112