面向出版社富媒体知识的文本分类研究  被引量:4

Research on the Processing of Rich Media Knowledge for Publishers

在线阅读下载全文

作  者:刘琼昕 宋祥[2,3] 王鹏 LIU Qiongxin;SONG Xiang;WANG Peng(Beijing Engineering Applications Research Center on High Volume Language Information Processing and Cloud Computing,Beijing 100081,China;School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China;The Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content Institute ofScientific & Technical Information of China)

机构地区:[1]北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081 [2]北京理工大学计算机学院,北京100081 [3]中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室

出  处:《情报工程》2019年第2期40-48,共9页Technology Intelligence Engineering

基  金:富媒体数字出版内容组织与知识服务重点实验室开放基金项目(ZD2018-07/02):“富媒体数字出版内容的知识挖掘及发现技术研究”

摘  要:大数据环境下,出版行业面临着富媒体数据带来的跨媒体数据组织和海量历史数据的挑战。为了形成有效的知识组织,针对富媒体出版社的文本数据具有数据量巨大、标签分层级的特点,本论文使用截断奇异值分解进行降维,应用线性分类核支持向量机模型,并且设计了多层级分类方法,对富媒体文本进行文本分类。实验表明,在富媒体出版社的文本数据下,本文方法取得了较好的文本分类结果。在150维的文本特征下,区域分类的第二级分类效果最好,其中准确率达到0.98,召回率达到0.76,F1指标达到0.87。The publishing industry faces the challenge of cross-media data organization and massive historical data brought by rich media data in big data area.The text data for rich media publishing houses has the characteristics of huge data and hierarchical labels.In order to form an effective knowledge organization,this paper uses TSVD to reduce dimensionality,applies LinearSVM model,and designs Multi-level classification method for text classification of rich media texts.Experiments show that under the texts of rich media,our method has achieved good results.Under the 150-dimensional text feature,the second-level effect of regional classification is the best,with the accuracy rate reaching 0.98,the recall rate reaching 0.76,and the F1 index reaching 0.87.

关 键 词:富媒体 文本分类 支持向量机 降准 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] G35[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象