基于BP网络的中文文本分类技术  被引量:2

Chinese Text Categorization Technology Using BP Neural Network

在线阅读下载全文

作  者:杨新武[1] 李森[1] 刘椿年[1] 

机构地区:[1]多媒体与智能软件技术北京市重点实验室北京工业大学计算机学院,北京100022

出  处:《微计算机应用》2008年第3期31-36,共6页Microcomputer Applications

基  金:国家自然科学基金重大项目(No.60496322);北京市组织部优秀人才(No.2005D0501508);北京工业大学校青基金

摘  要:本文在对文本分类的问题,关键技术及系统结构进行介绍的基础上,详细阐述了一种利用带动力项的BP神经网络作为分类器的中文文本自动分类方法。该法采用归一化TFIDF算法对特征向量进行权值计算,并使用期望交叉熵统计方法对特征向量集进行精简。此外,我们在TanCorp12数据集上测试了特征项数目和训练次数对于分类器的宏平均和微平均性能的影响。This paper has illustrated the description of the Chinese text categorization problem, the key technology and system design, and base on that, this paper explains the method how to use BP artificial network( with momentum) to achieve the goal of automatically classifying Chinese texts into different categories. The method adopts the TF - IDF formula to calculate weight and uses Expected Cross Entropy method as a way of reducing space dimension. Finally,on the TanCorpl2 text set, we use macro- average F1 and micro- average F1 as evaluation criterion to test the impact of parameters, such as input node number,training times, on the performance of the classifier.

关 键 词:文本分类 BP神经网络 特征降维 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP391[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象