基于机器学习的扫描图书元数据自动抽取研究  被引量:4

Automatic Metadata Extraction of Scanned Books Based on Machine Learning

在线阅读下载全文

作  者:陈淑平[1] 梁东魁[2] 

机构地区:[1]燕山大学图书馆,河北秦皇岛066004 [2]燕山大学信息科学与工程学院,河北秦皇岛066004

出  处:《现代情报》2013年第6期45-48,共4页Journal of Modern Information

基  金:河北省秦皇岛市科学技术研究与发展计划项目(201101A087)

摘  要:在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuXML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。In digital processing of paper books, input of metadata is required. However manual entry is heavy, ineffi-cient. To solve this problem, presented an automatic metadata extraction method to scanned books based on machine learning. First, defined metadata elements composed of description, management and structure element. Then for the data source, that was DjVu XML document, analysised format, structure features of scanned page. To line as initial features vector, used rule-based and supervised machine learning to extract metadata. Experiments show that the algorithm can achieve a fine accuracy and recall rate, while significantly improves the efficiency of digital process of collection.

关 键 词:馆藏图书 数字化 元数据抽取 特征分析 信息抽取 

分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象