检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘琼昕 宋祥[2,3] 王鹏 LIU Qiongxin;SONG Xiang;WANG Peng(Beijing Engineering Applications Research Center on High Volume Language Information Processing and Cloud Computing,Beijing 100081,China;School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China;The Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content Institute ofScientific & Technical Information of China)
机构地区:[1]北京市海量语言信息处理与云计算应用工程技术研究中心,北京100081 [2]北京理工大学计算机学院,北京100081 [3]中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室
出 处:《情报工程》2019年第2期40-48,共9页Technology Intelligence Engineering
基 金:富媒体数字出版内容组织与知识服务重点实验室开放基金项目(ZD2018-07/02):“富媒体数字出版内容的知识挖掘及发现技术研究”
摘 要:大数据环境下,出版行业面临着富媒体数据带来的跨媒体数据组织和海量历史数据的挑战。为了形成有效的知识组织,针对富媒体出版社的文本数据具有数据量巨大、标签分层级的特点,本论文使用截断奇异值分解进行降维,应用线性分类核支持向量机模型,并且设计了多层级分类方法,对富媒体文本进行文本分类。实验表明,在富媒体出版社的文本数据下,本文方法取得了较好的文本分类结果。在150维的文本特征下,区域分类的第二级分类效果最好,其中准确率达到0.98,召回率达到0.76,F1指标达到0.87。The publishing industry faces the challenge of cross-media data organization and massive historical data brought by rich media data in big data area.The text data for rich media publishing houses has the characteristics of huge data and hierarchical labels.In order to form an effective knowledge organization,this paper uses TSVD to reduce dimensionality,applies LinearSVM model,and designs Multi-level classification method for text classification of rich media texts.Experiments show that under the texts of rich media,our method has achieved good results.Under the 150-dimensional text feature,the second-level effect of regional classification is the best,with the accuracy rate reaching 0.98,the recall rate reaching 0.76,and the F1 index reaching 0.87.
分 类 号:TP391[自动化与计算机技术—计算机应用技术] G35[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3