基于SAS的web文本分类模型研究  

WEB TEXT CLASSIFICATION MODEL STUDY BASED ON SAS

在线阅读下载全文

作  者:向来生[1] 孙威[1] 刘希玉[1] 

机构地区:[1]山东师范大学管理科学与工程学院,济南250014

出  处:《山东师范大学学报(自然科学版)》2016年第2期11-17,共7页Journal of Shandong Normal University(Natural Science)

基  金:国家自然科学基金资助项目(61170038;61472231);教育部人文社会科学项目(12YJA630152);山东省社会科学基金资助项目(11GGLJ22)

摘  要:通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.In this paper, we establish a model to analysis business enterprise customer query information for text classification to help e -commerce companies control the user's spending habits, and help users to find their needed goods. This study accesses to customer inquiry data and preprocesses these text data firstly. And then, the improved TF -IDF principle is applied to obtain the text feature vectors. Finally, this study establishes the classification model combining the Naive Bayes text classification and the semi - supervised EM iterative algorithm, and uses various criteria to evaluate the model. When facing multi - class text classification feature selection, keyword weights prone to great volatility. This study improves the keyword weight calculation formula to perfect the classification results. The experimental results show that classification has good classification effect.

关 键 词:SAS 文本分类 改进TF—IDF 朴素贝叶斯文本分类 EM迭代 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象