无需词典支持和切词处理的中文文档分类  被引量:1

Chinese Document Categorization without Dictionary Support and Segmentation Processing

在线阅读下载全文

作  者:周水庚[1] 关佶红[2] 胡运发[1] 

机构地区:[1]复旦大学计算机系,上海200433 [2]武汉测绘科技大学信息学院,武汉430079

出  处:《高技术通讯》2001年第3期31-35,共5页Chinese High Technology Letters

基  金:86 3计划资助项目!(86 3 30 6 ZT0 4 0 2 2 )

摘  要:利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。A new idea that utilizes the adjacent Chinese character pairs information to categorize Chinese documents is proposed so that the classifiers can shake off the requirements of dictionaries and segmentation processing and subsequently be domain and time independent. Such a Chinese documents categorization system is implemented on the basis of Naive Bayes and kNN methods, and the experimental results show that it can achieve satisfying categorization performance.

关 键 词:中文文档分类 N-gram信息 属性选择 贝叶斯分类 kNN法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象