检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京航空航天大学信息科学与技术学院,江苏南京210016
出 处:《系统工程与电子技术》2005年第11期1946-1949,共4页Systems Engineering and Electronics
基 金:航空科学基金资助课题(02F52033)
摘 要:针对日益增长的海量数据和信息,通常采取有效的采样技术对大数据集进行采样,然后通过对样本的分析得到数据总体的相关模式。首先论述了关于样本的一些基本概念:利用采样技术对大数据集和海量数据进行分析处理,讨论了普通抽样技术与数据挖掘中的采样技术的异同。然后对目前普遍采用的采样技术进行了分类,重点研究了简单随机采样和分层随机采样,并对不同采样技术进行了比较。最后给出数据挖掘中利用采样技术的一个实现。With the rapid increase of the data and information, usually sampling technology is an effective method with very large dataset, and then the pattern of the whole dataset is obtained. First some conceptions about sample are discussed: large dataset are analyzed and processed by sampling technologies, then the difference between normal sampling technologies and sampling technologies in data mining is studied. Current prevailing sampling technologies are classified, sh'nple random sampling technolclogy and stratified random technology are researched, and the difference of every kind of sampling technology is concluded. In the end, an implementation of sampling technology in data mining is presented.
关 键 词:样本 简单随机采样 分层随机采样 数据挖掘 模式
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15