检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039
出 处:《计算机技术与发展》2008年第11期29-31,共3页Computer Technology and Development
基 金:国家自然科学基金(60675031);"九七三"计划国家重点基础研究(2004CB318108;2007BC311003)
摘 要:文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。Text classification is the base of information retrieval and data mining and it is widely used in web data mining and search engine. Divides texts into words firstly and uses two methods named x^2 statistic and correlation coefficient to reduce dimensions, and then uses dimension regulation to obtain the feature. After getting the feature set, uses cover algorithm as a text classifier to study. The result of experiment indicates that it is an effective way to realize a text classifier with the combination of correlation coefficient, cover algorithm and dimension regulation.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3