基于大熵值变化区域和余弦相似度的离群迭代算法  被引量:9

Outlier Iteration Algorithm Based on Large Entropy Vary and Cosine Similarity

在线阅读下载全文

作  者:刘爱琴[1] 张继福[1] 荀亚玲[1] 

机构地区:[1]太原科技大学计算机科学与技术学院,太原030024

出  处:《小型微型计算机系统》2013年第7期1518-1521,共4页Journal of Chinese Computer Systems

基  金:山西省自然科学基金项目(2010011021-2)资助;山西省回国留学人员科研项目(2009-77)资助

摘  要:离群数据挖掘是数据挖掘领域中的重要分支之一.将聚类迭代的思想应用到离群数据挖掘中,给出一种基于大熵值变化区域和余弦相似度的离群迭代算法OIALEVCS.该算法首先针对离群挖掘特点,使用大熵值变化区域来选择初始候选离群对象;其次在每次迭代过程中,利用对海量高维数据有效的余弦相似度作为离群度量因子,搜索每个邻域内最离群的对象作为新的候选离群对象,直至迭代收敛;最后采用晚型星、高红移类星体、类星体三个天体光谱数据集,实验验证了算法有效性和可行性.由于该算法充分利用了大熵值变化区域来选择初始候选离群对象,因而进一步加速了迭代收敛的速度,提高了离群挖掘精确度.The outlier detection is one of the important branches in the field of data mining.By applying the clustering iteration to the outliers mining,a novel outlier iteration algorithm,OIALEVCS,based on large entropy vary and cosine similarity has been formulated.Firstly,the algorithm selects the initial candidate outliers using the area w ith large entropy vary according to the feature of outliers mining.Secondly,in each iteration the algorithm searches for outliers using cosine similarity as a measure factor.At last,experimental results show that the OIALEVCS algorithm has high efficiency and feasibility by taking late-type stars,high redshift quasars and quasars spectral data as data set.The algorithm takes full advantage of the area w ith large entropy vary to select the initial candidate outlier object therefore convergence rate is accelerated and the accuracy of outliers mining is improved.

关 键 词:离群 迭代 大熵值变化区域 余弦相似度 天体光谱 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象