检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈曦[1] 陆利坤[1] 王彤 曾庆涛[1] CHEN Xi;LU Likun;WANG Tong;ZENG Qingtao(Beijing Institute of Graphic Communication,Beijing 102600,China)
机构地区:[1]北京印刷学院,北京102600
出 处:《北京印刷学院学报》2024年第6期35-43,共9页Journal of Beijing Institute of Graphic Communication
基 金:北京市教育委员会出版学新兴交叉学科平台建设-数字喷墨印刷技术及多功能轮转胶印机关键技术研发平台(04190123001/003);北京市数字教育研究重点课题(BDEC2022619027);北京市高等教育学会2023年立项面上课题(课题编号:MS2023168);北京印刷学院校级科研项目(20190122019,Ec202303,Ea202301,E6202405)、北京印刷学院学科建设和研究生教育专项(21090122012,21090323009);北京市自然科学基金资助项目(1212010)研究成果。
摘 要:从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。From the foundation of Optical Character Recognition(OCR)to the application of natural language processing in text recognition,to the latest progress of visual language models in the field of text recognition.This paper introduces in detail the various steps of text recognition,including image preprocessing,feature extraction,character segmentation and recognition,and discusses a variety of advanced technologies and models such as contrast-based Xi,multimodal fusion,and other visual language models.In addition,the performance of different methods on multiple datasets is compared,and the challenges and limitations in the field of text recognition are discussed.
关 键 词:光学字符识别 自然语言处理 对比学习 多模态融合 视觉语言模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.31.224