研究中文文本分类技术的辅助平台  被引量:2

Support platform for researching Chinese text categorization technologies

在线阅读下载全文

作  者:白若鹞[1] 董渊[1] 张素琴[1] 徐大伟[2] 

机构地区:[1]清华大学计算机科学与技术系,北京100084 [2]长春大学计算机科学技术学院,长春130022

出  处:《清华大学学报(自然科学版)》2008年第7期1150-1153,共4页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金资助项目(60573017);国家海洋局数字海洋项目(908-03-01-13)

摘  要:为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题。This paper presents a support platform for Chinese text categorization based on components. Through this platform we studied the performance of most of traditional algorithms when they are now used in Chinese text categorization. The results show that the platform can be used to compare the performance of various classification algorithms and feature selection algorithms by analyzing the average classification accuracy of classifiers and to assess the availability of the corpus. The platform can also be used to study text categorization technologies including Chinese word segmentation, feature selection and classification algorithms.

关 键 词:自动文本分类 中文分词 特征选择 分类算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象