面向数字资源的自动标签模型  被引量:2

An Automatic Tagging System Focused on Digital Resources

在线阅读下载全文

作  者:雷智文 黄玲[1] LEI Zhi-wen;HUANG Ling(School of Automation,Harbin University of Science and Technology,Harbin 150080,China;Institute of Automation,Chinese Academy of Science,Beijing 100190,China)

机构地区:[1]哈尔滨理工大学自动化学院,哈尔滨150080 [2]中国科学院自动化研究所,北京100190

出  处:《哈尔滨理工大学学报》2020年第3期144-150,共7页Journal of Harbin University of Science and Technology

基  金:国家科技支撑计划(2015BAK25B00)。

摘  要:针对数字资源标签数量不足,获取困难的问题,提出了一种新的自动标签方法,对于收集的公共文化资源数据集和其它公开数据集,能够有效的进行标签扩展。提出过程依据神经网络理论和生成学习理论,采用隐含狄利克雷分布(latent dirichlet allocation,LDA)和Word2Vec方法分别对资源和初始标签进行处理,生成资源和初始标签的表示向量,然后以此两种向量作为深度结构语义模型的输入,建立面向数字资源的自动标签模型。从结果来看,该方法的标签扩展效果在精确度、平均排序倒数、平均准确率等指标上表现上总体优于文中提到的其它对比方法,能够解决某些情况下资源标签不足的问题,提高资源的利用率。In this paper,we proposed a novel automatic tagging system which aimed at the lack of tags about digital resources and the difficulty of extending tags.This tagging system can effectively extend tags for public cultural resources we collected and other public data sets.The algorithm of tagging system based on neural network and generative learning.We use Latent Dirichlet Allocation(LDA)and Word2Vec to process resources and initial tags,generating the representation vectors of resources and initial tags,then use these two kinds of vector to build this automatic tagging system focused on digital resources.From the results,the Precision,MRR,MAP and other indexes of this method is better than other comparison tagging methods mentioned in this paper,and it can solve the lack of tags in some cases.Increasing utilization of resources.

关 键 词:标签扩展 隐含狄利克雷分布 Word2Vec 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象