基于特征相似度的科技论文元数据提取算法研究被引量：9

Research on Paper Metadata Extraction Algorithm Based on Feature Similarity

机构地区：[1]西北工业大学机电学院,陕西西安710072 [2]西安交通大学,陕西西安710077

出　　处：《微电子学与计算机》2008年第8期129-132,共4页Microelectronics & Computer

基　　金：陕西省科学技术研究发展计划项目(2007K04-11)

摘　　要：通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元数据特征的元数据抽取算法,归纳出了论文元数据的7个形式特征和2个语义特征,定义了确定特征和排除特征,描述了特征相似度算法的6个步骤,给出了分别采用正则表达式方法和特征相似度方法的试验结果,测试表明,采用特征相似度方法的提取成功率从68%提高到了95%,达到了实用水平.Based on the fact that various metadata have its particular feature in length, font size, separator and so on, Paper Metadata Extraction Algorithm bases on Feature Similarity is issued, 7 formal feature functions, 2 semantic feature functions, Yes-Feature and No-Feature are defined, describe the 6 step of Feature Similarity Algorithm. Test results show that the extraction success rate by Feature similarity algorithm reach 95 % while the extraction success rate by pure DOM method is 68 % only in Paperopen. corn experiment.

关键词：元数据抽取特征相似度形式特征语义特征确定特征排除特征最大相似度原则

分类号：TP31[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征相似度的科技论文元数据提取算法研究被引量：9

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于特征相似度的科技论文元数据提取算法研究 被引量：9

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于特征相似度的科技论文元数据提取算法研究被引量：9