5G环境下高校图书馆自媒体平台多标签文本分类方法研究  被引量:10

Multi-Label Text Classification Method of University Library’s Self-Media Platform in 5G Environment

在线阅读下载全文

作  者:程雅倩 黄玮 金晓祥[3] 贾佳 CHENG Ya-qian;HUANG Wei;JIN Xiao-xiang;JIA Jia(Library of Hubei Institute of Technology,Huangshi 435003,China;School of Economics and Management,Hubei University of Technology,Wuhan 430070,China;Library of Wuhan University of Science and Technology,Wuhan 430080,China;Library of Hubei University of Chinese Medicine,Wuhan 430070,China)

机构地区:[1]湖北理工学院图书馆,湖北黄石435003 [2]湖北工业大学经济与管理学院,湖北武汉430070 [3]武汉科技大学图书馆,湖北武汉430080 [4]湖北中医药大学图书馆,湖北武汉430070

出  处:《情报科学》2022年第2期155-161,共7页Information Science

基  金:湖北省图工委基金项目“5G环境下高校图书馆应用自媒体视频平台创新移动服务的策略研究”(2019—YB—15);国家自然科学基金项目“大数据环境下基于特征本体学习的无监督文本分类方法研究”(71571064)。

摘  要:【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。【Purpose/significance】Due to the high dimension and imbalance of multi label text in self-media platform,the text classification effect is poor.Therefore,it is of great significance to study the multi label text classification method of University Library’s self-media platform in 5 G environment.【Method/process】Firstly,this paper preprocesses the multi label text of University Library’s self-media platform in 5 G environment,including meaningless data removal,text segmentation,and stop words removal;Then use the improved principal component analysis method for multi-label text dimensionality reduction,and use the vector space model to achieve text balance processing;Finally,based on the processed text,a text classifier is constructed using Adaboost and SVM algorithms to achieve multi-label text classification.【Result/conclusion】The experimental results show that the self-media platform label text classification method proposed in this paper can reduce the Hamming loss,increase the F1 value,and have a good multi-label text classification effect,and it is less time-consuming and reliable.【Innovation/limitation】Due to the insufficient number of data sets in this study,the results obtained in terms of testing and verification have certain limitations. Therefore,in future research,we expect to use a richer database to make further improvements and innovations to the designed method.

关 键 词:5G高校图书馆 自媒体平台 多标签文本 分类 降维 平衡化处理 

分 类 号:G254[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象