检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]复旦大学计算机系,上海200433 [2]武汉测绘科技大学信息学院,武汉430079
出 处:《高技术通讯》2001年第3期31-35,共5页Chinese High Technology Letters
基 金:86 3计划资助项目!(86 3 30 6 ZT0 4 0 2 2 )
摘 要:利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。A new idea that utilizes the adjacent Chinese character pairs information to categorize Chinese documents is proposed so that the classifiers can shake off the requirements of dictionaries and segmentation processing and subsequently be domain and time independent. Such a Chinese documents categorization system is implemented on the basis of Naive Bayes and kNN methods, and the experimental results show that it can achieve satisfying categorization performance.
关 键 词:中文文档分类 N-gram信息 属性选择 贝叶斯分类 kNN法
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229