检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《武汉理工大学学报(交通科学与工程版)》2011年第4期735-738,共4页Journal of Wuhan University of Technology(Transportation Science & Engineering)
摘 要:识别扫描得到的文本图像首先要进行二值化处理,以去掉冗余的信息.针对二值化过程中采取固定阈值会导致图像的背景和文本不能得到有效区分的问题,提出改进的分块EM算法,并应用在文本图像的二值化过程中,有效地分离了图像中的文本和背景信息,使识别的后续阶段提取的特征能够更好地代表要识别的模式.Image binarization is an important preprocess step for a document processing system which is used to remove redundant information from a color or gray scale document.In this paper,we implemented an advanced block image binarization method based on the EM algorithm to binarize documents with uneven lighting.It can solve the problem that a fixed threshold will not effectively distinguish the backgrounds from the text.In this research we applied two techniques to effectively solve this problem: 1) We cut the gray sale image into small blocks,and 2) to each block,we use the advanced EM algorithm to cluster the background and text pixels into two groups,therefore,the background and text pixels can be easily separated within each block.The binarized clean image can be used further for feature extraction and other high level process.
关 键 词:模式识别 OCR 图像二值化 EM算法 分块图像
分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117