检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:高磊[1] 戴新宇[1] 黄书剑[1] 陈家骏[1]
机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210023
出 处:《模式识别与人工智能》2015年第2期187-192,共6页Pattern Recognition and Artificial Intelligence
基 金:国家自然科学基金项目(No.61003112;61170181);国家社会科学基金重点项目(No.11AZD121);江苏省自然科学基金项目(No.BK2011192)资助
摘 要:产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性.Product attribute extraction is a key point in sentiment analysis. In this paper, a product attribute extraction method based on feature selection and pointwise mutual information pruning strategies is proposed. Firstly, the extraction task is transferred to a feature selection task in a classifier. The classification model with l1-norm regularization, such as Lasso, can encourage a sparse model with fewer important selected features. Secondly, some extracted features are selected through a frequency threshold. The features as the product attributes are finally generated with point mutual information pruning . The experiments on the product reviews in Chinese demonstrate the effectiveness of the proposed method.
关 键 词:情感分析 产品属性提取 l1-norm正则化 点互信息剪枝
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.164.159