无需词典支持和切词处理的中文文档分类被引量：1

Chinese Document Categorization without Dictionary Support and Segmentation Processing

机构地区：[1]复旦大学计算机系,上海200433 [2]武汉测绘科技大学信息学院,武汉430079

出　　处：《高技术通讯》2001年第3期31-35,共5页Chinese High Technology Letters

基　　金：86 3计划资助项目!(86 3 30 6 ZT0 4 0 2 2 )

摘　　要：利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明。A new idea that utilizes the adjacent Chinese character pairs information to categorize Chinese documents is proposed so that the classifiers can shake off the requirements of dictionaries and segmentation processing and subsequently be domain and time independent. Such a Chinese documents categorization system is implemented on the basis of Naive Bayes and kNN methods, and the experimental results show that it can achieve satisfying categorization performance.

关键词：中文文档分类 N-gram信息属性选择贝叶斯分类 kNN法

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

无需词典支持和切词处理的中文文档分类被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

无需词典支持和切词处理的中文文档分类 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

无需词典支持和切词处理的中文文档分类被引量：1