基于视觉语言的文字识别方法综述  

A Review of Visual Language Based Text Recognition Methods

在线阅读下载全文

作  者:陈曦[1] 陆利坤[1] 王彤 曾庆涛[1] CHEN Xi;LU Likun;WANG Tong;ZENG Qingtao(Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区:[1]北京印刷学院,北京102600

出  处:《北京印刷学院学报》2024年第6期35-43,共9页Journal of Beijing Institute of Graphic Communication

基  金:北京市教育委员会出版学新兴交叉学科平台建设-数字喷墨印刷技术及多功能轮转胶印机关键技术研发平台(04190123001/003);北京市数字教育研究重点课题(BDEC2022619027);北京市高等教育学会2023年立项面上课题(课题编号:MS2023168);北京印刷学院校级科研项目(20190122019,Ec202303,Ea202301,E6202405)、北京印刷学院学科建设和研究生教育专项(21090122012,21090323009);北京市自然科学基金资助项目(1212010)研究成果。

摘  要:从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。From the foundation of Optical Character Recognition(OCR)to the application of natural language processing in text recognition,to the latest progress of visual language models in the field of text recognition.This paper introduces in detail the various steps of text recognition,including image preprocessing,feature extraction,character segmentation and recognition,and discusses a variety of advanced technologies and models such as contrast-based Xi,multimodal fusion,and other visual language models.In addition,the performance of different methods on multiple datasets is compared,and the challenges and limitations in the field of text recognition are discussed.

关 键 词:光学字符识别 自然语言处理 对比学习 多模态融合 视觉语言模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象