数据偏斜

作品数:17被引量:26H指数:3
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:董继润洪晓光李庆华王新军李孟娟更多>>
相关机构:湖南大学华中科技大学山东大学华中理工大学更多>>
相关期刊:《计算机时代》《哈尔滨理工大学学报》《上海理工大学学报》《计算机工程与应用》更多>>
相关基金:国家自然科学基金国家高技术研究发展计划中央高校基本科研业务费专项资金山西省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于条件生成模型的高效近似查询处理框架被引量:3
《浙江大学学报(工学版)》2022年第5期995-1005,共11页白文超 韩希先 王金宝 
国家自然科学基金资助项目(61872106,61832003,61632010)。
提出新型的近似查询处理方法,以克服近似查询处理任务中数据偏斜所导致的查询准确率低的问题.该方法以条件生成对抗神经网络为基础,融入条件变分自编码器,保证算法执行的稳定性,提高模型准确率;使用Wasserstein距离衡量模型误差,防止模...
关键词:条件生成对抗网络 条件变分自编码器 近似查询处理 聚集预计算 数据偏斜 
使用监督学习技术在学术社交网络中进行链路预测被引量:2
《计算机时代》2019年第1期39-42,45,共5页赵素芬 
国家自然科学基金(61170026);国家重点研发计划(2017YFB0503700;2016YFB0501801);国家标准研究计划(2016BZYJ-WG7-001);华中师范大学中央高校基本科研业务费青年教师创新项目(CCNU18QN019)
链路预测是社交网络研究中最核心、最本质的研究问题。文章基于学术合作关系社交网络,采用多种现有的经典机器学习算法进行链路预测。针对现有监督学习算法中特征集使用不够全面的问题,抽取了三大类别的特征。针对数据高度偏斜问题,采...
关键词:社交网络 链路预测 机器学习 监督学习 数据偏斜 
基于KNN算法的改进的一对多SVM多分类器被引量:11
《计算机工程与应用》2015年第24期126-131,共6页刘雨康 张正阳 陈琳琳 陈静 
国家自然科学基金(No.11271367)
针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同它...
关键词:支持向量机(SVM) 一对多 K近邻(KNN) 数据偏斜 
动态散列目录扩展算法的研究被引量:2
《太原科技大学学报》2013年第5期321-324,共4页陈慧杰 李建伟 
山西省自然科学基金(2012011027-3)
为了分析分裂条件(桶溢出和存储利用率)和数据偏斜性对线性散列、可扩展散列、改进的动态散列目录增长的影响,对三种动态散列的目录扩展算法进行了研究。实验结果表明,在数据分布均匀的情况下,采用桶溢出分裂与采用存储利用率分裂相比较...
关键词:动态散列 数据偏斜性 分裂条件 目录尺寸 
一种基于数据偏斜的改进KNN文本分类被引量:3
《微电子学与计算机》2010年第3期51-53,58,共4页刘海峰 陈琦 刘守生 苏展 
国家自然科学基金项目(70571087)
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所...
关键词:特征选择 文本分类 改进KNN 相似度 
基于反馈信息的特征权重调整方法被引量:3
《计算机工程》2009年第2期206-207,229,共3页李艳玲 戴冠中 余梅 
训练集的分布对文本分类质量有重要影响。该文对两类文本分类中的数据集偏斜问题进行研究,提出一种基于反馈信息的特征权重调整方法,该方法综合考虑正确分类和错误分类的文本数来调整词的权重,以降低训练过程中对小类别的不公平待遇。...
关键词:数据偏斜 反馈信息 权重调整 迭代 
层次式文本分类的Nave Bayes改进方法被引量:1
《计算机工程与科学》2008年第4期20-22,49,共4页张博锋 苏金树 徐昕 
国家自然科学基金资助项目(90604006);教育部高校博士点基金资助项目(20049998027)
Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部...
关键词:文本分类 层次式分类 NAIVE BAYES 机器学习 数据偏斜 
抗数据偏斜的高效并行join运算算法研究
《电脑知识与技术》2008年第11期938-939,946,共3页卢姝颖 朱平 
通过分析ABJ+算法和Hybrid hash join算法,并对两个算法进行了结合和改进,提出了一种能克服各种数据偏斜的并行二元连接运算算法,可在不同的数据偏斜情况下启动不同的模块,克服数据偏斜造成的负载不平衡现象。
关键词:并行连接 数据偏斜 并行数据库 ABJ+算法 HYBRID hashjoin算法 
一个机群环境下抗数据偏斜的JOIN算法
《上海理工大学学报》2004年第6期580-584,共5页那丽春 陈庆奎 徐宇清 
上海市教委发展基金资助项目(03GK11);黑龙江省教委发展基金资助项目
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的数据均衡分布机制、抗数据偏斜的JOIN算法.分析和实验表明,该算法适合于海量数据查询并能有效地解决机群...
关键词:计算机机群 数据偏斜 JOIN算法 海量数据 
数据偏斜和工作量平衡的度量
《空军雷达学院学报》2004年第1期47-49,共3页费晓燕 鲁汉榕 
在进行并行关联规则挖掘时,数据偏斜和工作量平衡这两个数据分布特征影响着剪枝的有效性.本文提出了用定量的方式对数据偏斜和工作量平衡进行度量,并对不同值的组合进行了分析,以便在以后研究算法时可以有效地调整这两个特征值以提高剪...
关键词:数据偏斜 工作量平衡 分布剪枝 全局剪枝 
检索报告 对象比较 聚类工具 使用帮助 返回顶部