检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:柳萌萌[1,2] 赵书良[1,2] 韩玉辉[1,2] 苏东海 李晓超[1,2] 陈敏[1,2] LIU Meng-Meng ZHAO Shu-Liang HAN Yu-Hui SU Dong-Hai LI Xiao-Chao CHEN Min(Mathematics & Information Science, Hebei Normal University, Shijiazhuang 050024, China Hebei Key Laboratory of Computational Mathematics & Applications (Hebei Normal University), Shijiazhuang 050024, China Grand Media Group, Hebei Broadcasting Wireless Media Co. Ltd., Shijiazhuang 050000, China)
机构地区:[1]河北师范大学数学与信息科学学院,河北石家庄050024 [2]河北省计算数学与应用重点实验室(河北师范大学),河北石家庄050024 [3]冀广传媒集团河北广电无限传媒有限公司,河北石家庄050000
出 处:《软件学报》2016年第12期3030-3050,共21页Journal of Software
基 金:国家自然科学基金(71271067);国家社会科学基金(13BTY011;13&ZD091)~~
摘 要:多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了数据尺度划分和数据尺度的定义以及多尺度数据集之间的上下层尺度数据集关系;其次,阐明了多尺度数据挖掘的定义、研究实质和方法分类;最后,提出了多尺度数据挖掘算法框架,给出其理论基础,并将此框架应用于关联规则挖掘,提出了多尺度关联规则挖掘算法MSARMA(multi-scale association rules mining algorithm),实现了多尺度数据集之间知识的跨尺度推导.利用IBM T10I4D100K数据集和H省全员人口真实数据集对MSARMA算法进行了实验和分析,实验结果表明:算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的.Many researches of data mining have paid close attention to multi-scale theory. However the study of multi-scale data mining still comes short on universal theories and approaches. To overcome this limitation, this paper conducts a study of universal multi-scale data mining on theoretical and methodological aspect. First, the paper lays out the definition of data-scale-partition and data-scale based on concept hierarchy, and characterizes the relationship of upper-layer and lower-layer datasets between multi-scale datasets. Next, it illustrates the definition and essence of multi-scale data mining, and presents the classification of multi-scale data mining methods. Finally, it introduces the algorithm framework and its theoretical basis of multi-scale data mining, and proposes an algorithm named MSARMA(multi-scale association rules mining algorithm) to realize the transition of knowledge in multi-scale data expressions. Experiments are carried out to test MSARMA with the help of IBM T10I4D100 K dataset and demographic dataset from H province, and the results indicate that MSARMA is effective and feasible with better coverage rate, better accuracy and lower average support error.
关 键 词:多尺度 频繁项集 关联规则 尺度转换 多尺度关联规则挖掘
分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.129.37