N步长距离视觉语言模型的图像分类方法  

Image Categorization of the Skip-N Long Distance Visual Language Model

在线阅读下载全文

作  者:王挺进[1] 赵永威[1] 李弼程[1] 

机构地区:[1]信息工程大学,河南郑州450001

出  处:《信息工程大学学报》2014年第4期453-458,465,共7页Journal of Information Engineering University

基  金:国家自然科学基金资助项目(60872142)

摘  要:传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。Traditional visual language models only considers the spatial relationship between adja- cent visual words, and ignores the non-adjacent pairs. Aiming at the shortcomings of traditional visual language models, this paper presents a improved skip-N long distance visual language model which can get more spatial information between words. It also describes the relations by which the words are separated by compared words, and trains the model. Finally, three classification methods are experimentally N by different weight allocations and the effects of different parameters. The resuits show that the skip-N long distance visual language model can improve the accuracy of image classification to certain extent.

关 键 词:视觉语言模型 图像分类 空间位置信息 长距离 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象