基于随机森林的产品垃圾评论识别  被引量:12

Identification of Product Review Spam by Random Forest

在线阅读下载全文

作  者:何珑[1,2] 

机构地区:[1]福州大学信息化建设办公室 [2]福建省超级计算中心

出  处:《中文信息学报》2015年第3期150-154,161,共6页Journal of Chinese Information Processing

基  金:福建省自然科学基金(2010J05133)

摘  要:目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。Current review spam identification methods are focused on the feature selection, without addressing the imbalance of the data set. This paper presents a product review spare identification method based on the random for- est, with the same number of samples extracted from the large and small class with replacement repeatedly, or with the same weight assigned to the large and small class. The experimental results on Amazon dataset show that the random forest method outperforms other baseline methods.

关 键 词:产品垃圾评论 不平衡问题 随机森林 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象