检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国石油大学(华东)计算机与通信工程学院,山东青岛266580
出 处:《计算机技术与发展》2013年第1期128-130,134,共4页Computer Technology and Development
基 金:中央高校基本科研专项资金(09CX04031A);中国石油大学(华东)计算机与通信工程学院青年教师创新基金(08120907)
摘 要:文本分类是解决网络信息过载的关键技术之一。传统的文本分类方法大多只考虑文本中词语的统计词频等特征,忽略了文本的语义信息,导致文本分类精度不高。针对这种问题,提出了一种基于语义距离的文本分类方法,该方法首先根据CHI方法进行文本特征选择,然后利用语义距离计算代表类别的特征向量集合,最后通过计算文本特征向量和类别特征向量之间的语义距离来确定文本类别。实验结果表明,该方法与其他方法相比,把文本的语义信息考虑在内,在进行文本分类方面具有较高的准确率。Text classification is one of the key technologier solving network information overload. The traditional text classification meth- ods only consider mostly the statistical word frequency in the text, ignoring the text semantic information, leading to text classification ac- curacy is not high. Aiming to this problem, propose a text classification method based on semantic distance, this method first take the text feature selection according to CHI method, and then by using semantic distance calculate feature vector set on behalf of the category, final- ly through the calculation of the distance between text feature vector and category feature vector determine the text category. The experi- mental results show that this method, compared with the existing methods, take the semantic information of the text into consideration, has higher accuracy in the text classification.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222