检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]燕山大学图书馆,河北秦皇岛066004 [2]燕山大学信息科学与工程学院,河北秦皇岛066004
出 处:《现代情报》2013年第6期45-48,共4页Journal of Modern Information
基 金:河北省秦皇岛市科学技术研究与发展计划项目(201101A087)
摘 要:在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuXML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。In digital processing of paper books, input of metadata is required. However manual entry is heavy, ineffi-cient. To solve this problem, presented an automatic metadata extraction method to scanned books based on machine learning. First, defined metadata elements composed of description, management and structure element. Then for the data source, that was DjVu XML document, analysised format, structure features of scanned page. To line as initial features vector, used rule-based and supervised machine learning to extract metadata. Experiments show that the algorithm can achieve a fine accuracy and recall rate, while significantly improves the efficiency of digital process of collection.
关 键 词:馆藏图书 数字化 元数据抽取 特征分析 信息抽取
分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249