基于PVT模型分类任务的优化方法  

Optimization Method for PVT Model Classification Task

在线阅读下载全文

作  者:赵志闯 古丽娜孜 帕孜来提 陈藜韦 ZHAO Zhichuang;Gu Li Nazi;Pa Zi Laiti;CHEN Liwei(School of Network Security and Information Technology,Yili Normal University,Yining 835012,China)

机构地区:[1]伊犁师范大学网络安全与信息技术学院,新疆伊宁835012

出  处:《计算机与网络》2024年第6期542-548,共7页Computer & Network

基  金:自治区自然科学基金项目(2023D01C52);伊犁师范大学重点项目(2023YSZD004);伊犁师范大学学实高层次人才岗位项目(YSXSJS22002);伊犁哈萨克自治州科技计划项目(YZ2022YD001)。

摘  要:PVT模型是在Vision Transformer(VIT)的基础上进行改进的深度学习模型。不同于VIT的单一尺度处理,PVT引入了金字塔结构,旨在更全面地捕捉图像中的多尺度信息,以提高模型性能。为PVT引入了一种层级激活机制来提升PVT在分类任务的性能和鲁棒性。层级激活机制将饱和状态分配给层级,以减少由于输入变化而导致的激活输出在层级上的波动。为了评估优化模型的有效性,创建了一个专门的植物多源数据集,并将其转化为噪声图像,以更真实地模拟实际场景。分别在CIFAR10、InterImage和植物多源数据集上进行实验,分类任务的准确率均有一定的提升。The PVT model is a deep learning model that is improved based on Vision Transformer(VIT).Unlike the single-scale processing of VIT,a pyramid structure is introduced in PVT that aims to capture the multi-scale information in images more comprehensively,improving the model performance.A layered activation mechanism is brought in for PVT to enhance its performance and robustness in classification tasks.Saturation states are distributed to the layers by the mechanism to reduce the fluctuation of activation output on the layers due to input changes.In order to evaluate the effectiveness of the optimization model,a dedicated multi-source dataset of plants is created and transformed into noise images to more realistically simulate actual scenes.The experiments are conducted on CIFAR10,InterImage and the plant multi-source dataset respectively,and the accuracy of the classification task is improved in all cases.

关 键 词:图像分类 PVT 层级激活机制 多源数据集 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象