场景文本

作品数:117被引量:342H指数:9
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:金连文白翔罗昕孙亚杰黄双萍更多>>
相关机构:华南理工大学中国科学技术大学华中科技大学哈尔滨工业大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项黑龙江省教育厅科学技术研究项目更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机应用研究x
条 记 录,以下是1-4
视图:
排序:
基于多模态特征融合的场景文本识别
《计算机应用研究》2025年第4期1274-1280,共7页蔡明哲 王满利 窦泽亚 张长森 
国家自然科学基金资助项目(52074305);河南省科技攻关项目(242102221006);河南省研究生教育改革与质量提升工程资助项目(YJS2024AL026);河南理工大学光电传感与智能测控河南省工程实验室开放基金资助项目(HELPSIMC-2020-00X)。
为了解决自然场景文本图像因为遮挡、扭曲等原因难以识别的问题,提出基于多模态特征融合的场景文本识别网络(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享权重内部自回归的排列语言模型实现多种解码策略;其次,MMSTR...
关键词:场景文本 特征融合 语言模型 注意力机制 残差网络 
基于多模态推理图神经网络的场景文本视觉问答模型
《计算机应用研究》2022年第1期280-284,302,共6页张海涛 郭欣雨 
辽宁省自然科学基金面上项目;中国人民解放军总装备部装备预研基金项目。
文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中...
关键词:视觉问答 图神经网络 多模态推理 问题自注意力 
复杂场景文本段识别被引量:1
《计算机应用研究》2019年第9期2818-2820,2844,共4页王孝男 张利 何思楠 
针对背景复杂或者存在字符黏连时文本段图片无法准确切分的情况进行了研究,提出了一种复杂场景文本段识别方法。该方法利用图像和文字序列的相关性设计双向递归神经网络对图像特征序列进行编码,然后设计集成的连接时间分类(CTC)和注意力...
关键词:文本段识别 连接时间分类 注意力 集成 
基于随机投影的场景文本图像聚类方法研究被引量:2
《计算机应用研究》2011年第12期4730-4733,共4页徐飞 刘家锋 张博宇 吴锐 赵巍 
国家自然科学基金重点资助项目(61073128);黑龙江省青年基金资助项目(QC2009C35);哈尔滨工业大学校基金资助项目(NSRIF 2009.158)
图像中的文本字符存在于杂乱的背景之中,拍摄视角的不同使得文本具有较大的几何变形,再加上存在光照变化、字符颜色不统一等现象会导致背景分离和文本识别困难。为此提出一种基于图像文本区域的图像聚类方法。该方法首先对自然场景图像...
关键词:图像文本区域 图像聚类 随机投影 局部特征描述 
检索报告 对象比较 聚类工具 使用帮助 返回顶部