基于视觉语言的文字识别方法综述

A Review of Visual Language Based Text Recognition Methods

作　　者：陈曦[1] 陆利坤[1] 王彤曾庆涛[1] CHEN Xi;LU Likun;WANG Tong;ZENG Qingtao(Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区：[1]北京印刷学院,北京102600

出　　处：《北京印刷学院学报》2024年第6期35-43,共9页Journal of Beijing Institute of Graphic Communication

基　　金：北京市教育委员会出版学新兴交叉学科平台建设-数字喷墨印刷技术及多功能轮转胶印机关键技术研发平台(04190123001/003);北京市数字教育研究重点课题(BDEC2022619027);北京市高等教育学会2023年立项面上课题(课题编号:MS2023168);北京印刷学院校级科研项目(20190122019,Ec202303,Ea202301,E6202405)、北京印刷学院学科建设和研究生教育专项(21090122012,21090323009);北京市自然科学基金资助项目(1212010)研究成果。

摘　　要：从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。From the foundation of Optical Character Recognition(OCR)to the application of natural language processing in text recognition,to the latest progress of visual language models in the field of text recognition.This paper introduces in detail the various steps of text recognition,including image preprocessing,feature extraction,character segmentation and recognition,and discusses a variety of advanced technologies and models such as contrast-based Xi,multimodal fusion,and other visual language models.In addition,the performance of different methods on multiple datasets is compared,and the challenges and limitations in the field of text recognition are discussed.

关键词：光学字符识别自然语言处理对比学习多模态融合视觉语言模型

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于视觉语言的文字识别方法综述

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于视觉语言的文字识别方法综述

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索