数据挖掘中采样技术的研究  被引量:5

Research on sampling technology in data mining

在线阅读下载全文

作  者:郑吉平[1] 秦小麟[1] 

机构地区:[1]南京航空航天大学信息科学与技术学院,江苏南京210016

出  处:《系统工程与电子技术》2005年第11期1946-1949,共4页Systems Engineering and Electronics

基  金:航空科学基金资助课题(02F52033)

摘  要:针对日益增长的海量数据和信息,通常采取有效的采样技术对大数据集进行采样,然后通过对样本的分析得到数据总体的相关模式。首先论述了关于样本的一些基本概念:利用采样技术对大数据集和海量数据进行分析处理,讨论了普通抽样技术与数据挖掘中的采样技术的异同。然后对目前普遍采用的采样技术进行了分类,重点研究了简单随机采样和分层随机采样,并对不同采样技术进行了比较。最后给出数据挖掘中利用采样技术的一个实现。With the rapid increase of the data and information, usually sampling technology is an effective method with very large dataset, and then the pattern of the whole dataset is obtained. First some conceptions about sample are discussed: large dataset are analyzed and processed by sampling technologies, then the difference between normal sampling technologies and sampling technologies in data mining is studied. Current prevailing sampling technologies are classified, sh'nple random sampling technolclogy and stratified random technology are researched, and the difference of every kind of sampling technology is concluded. In the end, an implementation of sampling technology in data mining is presented.

关 键 词:样本 简单随机采样 分层随机采样 数据挖掘 模式 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象