非均衡数据下基于卷积神经网络的专利文本自动分类研究  被引量:3

Automatic Classifi cation of Patent Text Based on Convolutional Neural Network under Unbalanced Data

在线阅读下载全文

作  者:黄彩云 吴金红 陈勇跃 王翠波[2] HUANG Caiyun;WU Jinhong;CHEN Yongyue;WANG Cuibo(School of Management,Wuhan Textile University,Wuhan 430200,China;School of Management,South-Central Minzu University,Wuhan 430074,China)

机构地区:[1]武汉纺织大学管理学院,武汉430200 [2]中南民族大学管理学院,武汉430074

出  处:《文献与数据学报》2020年第3期25-36,共12页Journal of Library and Data

基  金:国家社会科学基金青年项目“基于实时大数据的潜在新兴技术敏捷预测机制研究”(项目编号:14CTQ017)研究成果之一。

摘  要:[目的/意义]探究非均衡专利文本数据的自动分类问题,并分析识别不同方案的分类效果。[方法/过程]使用卷积神经网络作为分类器,利用随机欠采样、随机过采样以及综合采样的方法对非均衡数据进行采样处理,使训练数据集均衡化,然后运用卷积神经网络进行自动分类,并分析分类的指标特征。[结果/结论]针对非均衡数据的分类问题,不能单一依据准确率来判定,三种实验方法都可以提高分类的正确率,但是进一步明确各类别实际的分类正确率而言,综合采样方法相对较好,能够改善专利文本自动分类效果。卷积神经网络在非均衡专利文本多分类中,虽然能够对多数类别进行相对较好的识别,但分类精度仍有较大提升空间。[Purpose/significance]This paper explores the automatic classification of unbalanced patent text data and analyzes the classification effects of different schemes.[Method/process]Using convolutional neural network as a classifi er,using random under-sample,random over-sample and integrated sampling methods to sample unbalanced data,equalize the training data set,and then use a convolutional neural network for automatic classifi cation and analyze the index characteristics of the classifi cation.[Result/conclusion]For the classifi cation of unbalanced data,it can’t be determined solely based on the accuracy rate.All three experimental methods can improve the accuracy rate of classifi cation,but to further clarify the actual classifi cation accuracy rate of each category,the integrated sampling method is relatively good and can improve the effect of automatic classifi cation of patent text.In the multi-classifi cation of unbalanced patent texts,convolutional neural networks can recognize most categories relatively well,but there is still room for improvement in classifi cation accuracy.

关 键 词:卷积神经网络 非均衡数据 综合采样 专利自动分类 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象