检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]多媒体与智能软件技术北京市重点实验室北京工业大学计算机学院,北京100022
出 处:《微计算机应用》2008年第3期31-36,共6页Microcomputer Applications
基 金:国家自然科学基金重大项目(No.60496322);北京市组织部优秀人才(No.2005D0501508);北京工业大学校青基金
摘 要:本文在对文本分类的问题,关键技术及系统结构进行介绍的基础上,详细阐述了一种利用带动力项的BP神经网络作为分类器的中文文本自动分类方法。该法采用归一化TFIDF算法对特征向量进行权值计算,并使用期望交叉熵统计方法对特征向量集进行精简。此外,我们在TanCorp12数据集上测试了特征项数目和训练次数对于分类器的宏平均和微平均性能的影响。This paper has illustrated the description of the Chinese text categorization problem, the key technology and system design, and base on that, this paper explains the method how to use BP artificial network( with momentum) to achieve the goal of automatically classifying Chinese texts into different categories. The method adopts the TF - IDF formula to calculate weight and uses Expected Cross Entropy method as a way of reducing space dimension. Finally,on the TanCorpl2 text set, we use macro- average F1 and micro- average F1 as evaluation criterion to test the impact of parameters, such as input node number,training times, on the performance of the classifier.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.111