基于主题语义扩展的混合类型数字资源分类研究  被引量:3

The Classification of Mixed Digital Resources: Based on the Topic Semantic Extension

在线阅读下载全文

作  者:巴志超 李湘东[1] 马亚雪 徐健 

机构地区:[1]武汉大学信息管理学院,湖北武汉430072

出  处:《情报理论与实践》2018年第5期143-149,136,共8页Information Studies:Theory & Application

基  金:国家社会科学基金项目"多种类型文本数字资源自动分类研究"的成果之一;项目编号:15BTQ066

摘  要:为满足数字图书馆各种类型数字化资源统一分类组织的需要,文章着重对数字图书馆中多种类型文献混合分类的可行性进行探索与分析。引入语义主题模型构建方法,结合外部知识库Wikipedia进行语义扩展,构建一种基于主题语义扩展的混合类型文献自动分类方法。研究发现:在多类型文献混合分类中,网页与非学术性期刊文献、图书与学术性期刊文献之间具有较高的亲和力,可互相作为分类材料中的训练集并达到较高分类性能;不同分类算法针对多种类型文献混合分类具有不同的可学习能力和适应性,贝叶斯算法、最大熵模型比支持向量机更能适应多种类型文献的混合分类;引入主题语义扩展方法能够有效减弱不同类型文献之间的文本特征差异,增强不同类型文献混合分类时的亲和力,提高文献的混合分类性能。To meet the demand of unified classification and organization for various kinds of digital resources in digital library,this paper focuses on the feasibility of classification for the mix of multiple kinds of library collections. An automatic classification method based on topic semantic extension is presented by introducing the semantic topic models and Wikipedia. The research discoveries that library collections from websites are close to those from non-academic journals,books and academic literatures,and they can support each other by achieving good performance with one of them as training set. Different classification methods have different abilities on self-learning and adaptability for the mixed literatures. Naive Bayes and MaxEnt have better performances for the mixed literatures classification than the Support Vector Machine( SVM). Topic semantic expansion method can not only reduce the feature diversity of different collections effectively,but also increase the affinity of mixed classification,which improves the performance of mixed classification.

关 键 词:主题模型 语义扩展 数字资源 混合分类 

分 类 号:G254.1[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象