基于聚类分析策略的用户偏好挖掘  被引量:8

A Cluster-based Approach on Mining Text Preference

在线阅读下载全文

作  者:刘远超[1] 王晓龙[1] 刘秉权[1] 钟彬彬[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001

出  处:《计算机应用研究》2005年第12期21-23,共3页Application Research of Computers

基  金:国家自然科学基金资助项目(60373100);国家"863"计划资助项目(2002AA117010-09)

摘  要:利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。It is one of the key technologies in NLP applications such as text information filtering and multi-document summarization to mine the hidden user text preference and concept vector from the training documents. To solve the problem of multitopic problem in training documents, an approach which is based on cluster analysis has been introduced . The basic idea is to classify the training documents firstly, then analyze the commonness of the documents on the same topic. After feature weight modification and feature reduction, the concept vectors on different topic are formed. The experiment results show that the approach can represent user text preference more precisely, and not sensitive to relevance threshold. User preference profile can be mined by combing the approach with Rocchio algorithm.

关 键 词:偏好挖掘:文档聚类 概念向量 Rocchio算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象