检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山东师范大学管理科学与工程学院,济南250014
出 处:《山东师范大学学报(自然科学版)》2016年第2期11-17,共7页Journal of Shandong Normal University(Natural Science)
基 金:国家自然科学基金资助项目(61170038;61472231);教育部人文社会科学项目(12YJA630152);山东省社会科学基金资助项目(11GGLJ22)
摘 要:通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.In this paper, we establish a model to analysis business enterprise customer query information for text classification to help e -commerce companies control the user's spending habits, and help users to find their needed goods. This study accesses to customer inquiry data and preprocesses these text data firstly. And then, the improved TF -IDF principle is applied to obtain the text feature vectors. Finally, this study establishes the classification model combining the Naive Bayes text classification and the semi - supervised EM iterative algorithm, and uses various criteria to evaluate the model. When facing multi - class text classification feature selection, keyword weights prone to great volatility. This study improves the keyword weight calculation formula to perfect the classification results. The experimental results show that classification has good classification effect.
关 键 词:SAS 文本分类 改进TF—IDF 朴素贝叶斯文本分类 EM迭代
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.194