检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]暨南大学信息科学技术学院计算机系,广州510632
出 处:《计算机工程与应用》2015年第9期129-134,157,共7页Computer Engineering and Applications
基 金:国家自然科学基金(No.61272073);广东省自然科学基金(No.S2013020012865)
摘 要:随着网络文本数据呈指数级增长,信息的人工分类和管理逐渐被计算机自动分类所替代,相关领域经过多年的研究和发展已经开发出一些相对成熟的算法。研究分析发现:在文本预处理阶段歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。结合互信息度理论,提出一种基于背景学习的迭代式框架,在此基础上通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法,并使用新浪网不同类别数据对提出的迭代式框架进行实验评估,实验结果表明提出的基于背景学习的迭代式文本分类框架可行有效。The exponential growth of text-based information on Internet has boosted a growing demand for automatic text classification techniques. Various algorithms have been proposed after decades of research. However, distinction of ambig-uous phrases at text preprocessing phase is considered of vital importance for accuracy in automatic text classification, which remains to be solved comprehensively and convincingly. This paper presents a background-based iterative frame-work integrated with the mutual information theory. When applied to text preprocessing, it improves the traditional Naive Bayesian model based text classification algorithms. Experimental results based on data from various Sina categories show that this proposed framework is both feasible and effective.
关 键 词:背景知识 迭代 互信息度 朴素贝叶斯 文本分类 歧义消除
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.17.81.34