基于特征分析的数字化期刊元数据自动抽取算法  被引量:1

Automatic Metadata Extraction of Scanned Journal based on Feature Analysis

在线阅读下载全文

作  者:陈淑平[1] 梁东魁[1] 

机构地区:[1]燕山大学图书馆燕山大学信息科学与工程学院,秦皇岛066004

出  处:《情报杂志》2010年第3期143-146,共4页Journal of Intelligence

摘  要:在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤。传统的手工抽取需要大量的人力物力,效率很低。针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率。

关 键 词:数字化期刊 元数据抽取 特征分析 包围盒 

分 类 号:G250.76[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象