中文文本分类

作品数:160被引量:1384H指数:17
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:袁方陈军华张翔周明全王俊英更多>>
相关机构:河北大学西安电子科技大学清华大学西北大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划河北省自然科学基金国家重点基础研究发展计划更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程与应用x
条 记 录,以下是1-10
视图:
排序:
一种基于中心文档的KNN中文文本分类算法被引量:17
《计算机工程与应用》2011年第2期127-130,共4页鲁婷 王浩 姚宏亮 
国家自然科学基金(No.60705015);安徽省自然科学基金(No.070412064);合肥工业大学科学研究发展基金项目(No.070504F)~~
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项...
关键词:中文文本分类 k最邻近 中心文档 语义相似度 聚类 
中文文本分类中利用依存关系的实验研究被引量:16
《计算机工程与应用》2010年第3期131-133,141,共4页王鹏 樊兴华 
国家自然科学基金No.60703010;重庆市自然科学基金 No.2006BB2374;重庆市教委科学技术研究项目(No.KJ070519);教育部回国留学人员启动基金(教外司留[2007]1109号~~
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的...
关键词:依存关系 短文本 文本分类 
面向中文文本分类的C4.5Bagging算法研究被引量:2
《计算机工程与应用》2009年第26期135-137,共3页张翔 周明全 耿国华 侯凡 
国家自然科学基金No.60573179~~
对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝...
关键词:BAGGING算法 C4.5算法 中文文本分类 
新型快速中文文本分类器的设计与实现被引量:5
《计算机工程与应用》2009年第22期53-55,共3页陈艳秋 熊耀华 
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值...
关键词:中文文本分类 特征选择 特征权重 分类算法 
使用Logistic回归模型进行中文文本分类被引量:10
《计算机工程与应用》2009年第14期152-154,共3页李新福 赵蕾蕾 何海斌 李芳 
国家自然科学基金No.60772073;河北省自然科学基金No.F2006001020;河北省教育厅科研基金No.2005347;河北大学科研基金No.Y2004045~~
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM...
关键词:LOGISTIC回归模型 支持向量机 文本分类 特征 
Bagging算法在中文文本分类中的应用被引量:13
《计算机工程与应用》2009年第5期135-137,179,共4页张翔 周明全 耿国华 侯凡 
国家自然科学基金(No.60573179)~~
Bagging算法是目前一种流行的集成学习算法,采用一种改进的Bagging算法Attribute Bagging作为分类算法,通过属性重取样获取多个训练集,以kNN为弱分类器设计一种中文文本分类器。实验结果表明Attribute Bagging算法较Bagging算法有更好...
关键词:ATTRIBUTE BAGGING BAGGING 中文文本分类 K-近邻 
基于DCM的中文文本分类被引量:1
《计算机工程与应用》2006年第34期157-159,共3页骆昌日 张新华 何婷婷 骆世广 
国家973重点基础研究发展规划资助项目(2004CB318104);国家自然科学基金资助项目(60442005)。
当前提出的中文文本分类或多或少都存在分类速度或分类效果不佳的问题。使用DCM分类方法,采用国家语委平衡语料库进行分类测试,取得了开放测试平均查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确率98.74%的分类效...
关键词:文本分类 DCM 中心向量法 
模糊聚类在中文文本分类中的应用研究被引量:5
《计算机工程与应用》2006年第8期170-172,177,共4页杜长海 吉根林 
江苏省重点实验室开放基金资助项目(编号:KJS03064)
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对...
关键词:模糊聚类 文本分类 贴近度 模糊等价矩阵 
基于中文文本分类的分词方法研究被引量:22
《计算机工程与应用》2003年第23期87-88,91,共3页湛燕 陈昊 袁方 王熙照 
河北省自然科学基金(编号:698139);河北省教育厅科研计划项目(编号:2001206)
文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨...
关键词:文本分类 分词 查询 数据库 主题词 
一个基于概念的中文文本分类模型被引量:17
《计算机工程与应用》2002年第6期193-195,共3页苏伟峰 李绍滋 李堂秋 
文章提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排歧,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本所属的类别,实验证明该模型有较好的效果。
关键词:中文信息处理 中文文本分类 诣义模型 概念 
检索报告 对象比较 聚类工具 使用帮助 返回顶部