检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北工业大学机电学院,陕西西安710072 [2]西安交通大学,陕西西安710077
出 处:《微电子学与计算机》2008年第8期129-132,共4页Microelectronics & Computer
基 金:陕西省科学技术研究发展计划项目(2007K04-11)
摘 要:通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元数据特征的元数据抽取算法,归纳出了论文元数据的7个形式特征和2个语义特征,定义了确定特征和排除特征,描述了特征相似度算法的6个步骤,给出了分别采用正则表达式方法和特征相似度方法的试验结果,测试表明,采用特征相似度方法的提取成功率从68%提高到了95%,达到了实用水平.Based on the fact that various metadata have its particular feature in length, font size, separator and so on, Paper Metadata Extraction Algorithm bases on Feature Similarity is issued, 7 formal feature functions, 2 semantic feature functions, Yes-Feature and No-Feature are defined, describe the 6 step of Feature Similarity Algorithm. Test results show that the extraction success rate by Feature similarity algorithm reach 95 % while the extraction success rate by pure DOM method is 68 % only in Paperopen. corn experiment.
关 键 词:元数据抽取 特征相似度 形式特征 语义特征 确定特征 排除特征 最大相似度原则
分 类 号:TP31[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.74