密度峰值聚类的半监督多示例学习  

Semi-supervised Multi-instance Learning with Density Peaks Clustering

在线阅读下载全文

作  者:杨梅[1] 张雨轩 闵帆[1] YANG Mei;ZHANG Yuxuan;MIN Fan(School of Computer Science,Southwest Petroleum University,Chengdu 610500,China)

机构地区:[1]西南石油大学计算机科学学院,四川成都610500

出  处:《山西大学学报(自然科学版)》2020年第4期803-816,共14页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(61379089);四川省自然科学基金(2019YJ0314);四川省青年科技创新研究团队项目(2019JDTD0017)。

摘  要:多示例学习(multi-instance learning,MIL)的任务是训练分类器以处理复杂的数据包,其中很多方法重点考虑包之间相似性度量。由于包结构是MIL的固有特性,文章提出了密度峰值聚类的半监督多示例学习(semi-supervised multi-instance learning,SMDP)算法,包含三个步骤:(1)结合高斯核和五种距离度量,使用基于密度峰值聚类的方法寻找代表包;(2)基于包之间的距离将每一个包转换为单实例,其第i个属性为它与第i个代表包的距离;(3)使用转换后的数据训练分类器。实验结果表明SMDP良好的分类性能,在文本和图像数据集上尤为突出。The task of multi-instance learning(MIL)is to train a classifier to handle complicated data bags,among which many methods are developed based on different similarity measures between bags.Since a conspicuous feature of MIL is the inherent structures of bag,we propose the semi-supervised multi-instance learning with density peaks clustering(SMDP)algorithm with three steps for this issue.First,we select the most n_c representative bags using a clustering-based technique coupled with the Gaussian kernel and five distance measures.Second,each bag is transformed into the n_c-dimensional instance space using distances among bags.The value of the i-th feature of the new instance is the distance between the bag and the i-th representative bag.Third,the n_c-dimensional data table is employed to build a classifier.The results on twenty-seven data sets show that our algorithm is superior to state-of-the-art MIL algorithms especially on text and image data sets.

关 键 词:密度峰值聚类 高斯核 多示例学习 半监督学习 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象