基于图像的OMR技术的实现
摘要:在分析OMR与OCR的应用特点后,提出了基于图像的OMR方式。详细讨论了该方法的硬件设计和工作原理,并在软件处理方面着重介绍了倾斜校正和图像分割。它具有对纸张质量要求低和识别准确度高等特点。
关键词:OMR OCR 信号处理 倾斜校正 图像分割
目前,许多文档是以纸质文档的形式存在,例如银行票据、税务报表、标准化考试中的机读卡、人口普查表、彩标投注单、选票、定货单等。而纸质文档不便于保存、检索、统计和修改。将这些信息录入计算机是一件非常繁琐的事情。长期以来人们通过键盘手工输入,不但费时费力且容易出错。在实时性要求较高的场合(如选举中的统计选票)自动、快速、准确地处理文档显得尤为重要。因此,对这些文档进行计算机自动录入具有重要的实现意义。
计算机自动录入是解决这个同瓶颈的关键所在。其中,光学字符识别OCR(Optical Character Recognition)和光学标记识别OMR(Optical Mark Recognition)是解决信号自动录入的有效方法。它们利用光学方法将信息录入到计算机并进行识别处理,能极大地提高数据信息的采集速度,便于计算机存储、管理与检索。
1 OCR与OMR
(1)OCR的工作原理
OCR首先将要识别的文字和图像扫描进计算机,然后进行图像的预处理,再抽取字符特片进行识别,转变为计算机能够识别的字符信息。图像预处理包括去除噪声、歪斜校画龙点睛、图像分割、平滑及规范化等。其中图像分割是一个重要的步骤,它的作用是将要识别的单个字符的图像找到并分割出来。OCR技术主要应用于文字图像识别及处理,例如用于印刷体和限制手写体字符的识别。OCR技术已成为大规模数据录入的首选方案,它将随着计算机技术的发展而更加成熟。
(2)OMR的工作原理
OMR识别“涂点”上有无标记两种状态。“涂点”就是信息卡上可以涂写标记的地址。“涂点”所代表的含义可以事先定义,可以代表一个阿拉伯数字,也可以表示一个英文字母或符号。OMR技术快速简单,识别率高且成本低,广泛应用于标准化考虑自动阅卷、各类调查问卷的统计、选举结果的统计等,是自动识别领域中应用较多的一种方法。
javascript:window.open(this.src);" style="cursor:pointer;"/>
2 基于图像的OMR技术
目前OMR一般采用光电对管阅读技术。识别用的器件是半导体发光管及光敏管。发光管是光源器件,由它发出的光照射到“涂点”上。光敏管是接收器件,接收来自“涂点”位置的反射光。因为涂有标记的地方反光弱,未涂标记的地方反光强,所以光敏管接收到的光信号强度不同。不同强度的光信号可以代表有无标记两种状态。将“涂点”位置处的发光管和光敏这组成一只电眼,可识别一个涂点。若干个电眼排列起来组成光电头可完成对一排涂点的识别。
该方法实现应用中有如下限制:信息卡上的“涂点”要与电眼完全对齐,即信息卡在录入时不能倾斜;信息卡不能折皱;纸张质量、印刷技术要求高;填写标记要规范,否则就要影响识别结果。实际应用中,信息卡在录入时由于走纸机构机械误差而略有倾斜,会造成识别出错。
OCR由于采用了图像处理技术,信息卡在录入时的倾斜能自动校正,保证录入的高精度,也能处理略有折皱的信息卡。因此,OCR对所用纸张的质量、印刷技术要求不高,降低了运行成本。同时可以保留填写的原始图像备查,进行复核或重新识别。
在借鉴OCR优点的基础上,笔者在课题《彩标阅读及识别系统》中采用了基于图像的OMR技术。所谓基于图像的OMR技术,就是将信息卡经光电变换,形成二值化图像;再经歪斜校正、图像分割,对分割出的小块图像(含“涂点”)中的黑点数进行计数。若大于某个阈值,就认为有标记,否则就没有标记,从而完成了标记识别。相对OCR而言,它省去了最耗时的字符特征抽取步骤。
3 硬件组成
本系统框图如图1所示。
(1)图像传感器
采用国产的CIS(Contact Image Sensor)图像传感器,其光学分辨率比CCD略低,但是其驱动电路、光学系统和机械结构却比CCD简单。光学系统中采用特殊光源实现光学滤波,消除或减轻了信息卡背景信息对分割、识别的影响。工作时,由CPLD(Complex Programable Logic Device)产生一个周期性的同步脉冲SYN引导每次扫描,时钟信号CLK在移动寄存器的作用下,对CIS内的像元依次进行扫描,像元上的光电信号串行输出。
javascript:window.open(this.src);" style="cursor:pointer;"/>
(2)走纸控制
输入的信息卡通过光学系统成像在图像传感器的光敏面上,在CPLD器件产生的扫描信号的驱动下,图像传感器对信息卡进行横向自扫描;步进电机驱动输纸机构使信息卡纵向运行,从而实现了信息卡的二维扫描。
(3)模拟信号处理
模拟信号处理要考虑信息卡颜色的深浅、字迹的轻重和光强均匀度的变化等引起的脉冲幅度的变化。在光电变换中,对信号幅值影响较大的是:光束照射在光敏面上,光强的不均匀性及波动影响表现为白电平浮动对比度的变化也会引起信号幅值的较大起伏。处理的好坏直接影响到采集图像的质量。其过程为:CIS图像传感器摄取的原始图像信号,经放大、采样保持及滤波、对消、浮动阈值及二值化等一系列处理,消除或减轻了信息卡背景明暗变化、光源变化、开关噪声、高低频干扰等对系统的影响,获得高质量的二值化信号。
(4)数字信号处理
采用A、B两块大容量的SRAM轮流工作在读或写状态。合并二值化的信号,同时为了加快数据采集的速度,每次将16位的串行信号转换为2个字节的并行数据。在标志寄存器的控制下,将信号暂时写入A中,同时计算机通过16位ISA总线从B中取数据。在下一周期,二值化信号写入B中,计算机通过16位ISA总线从A中取数据。这样就保证数据传输的高效性。
(5)逻辑控制
整个系统的逻辑控制采用Lattice公司的CPLD——L1032,它负责控制轮纸机构、图像传感器、两块SRAM的轮换;并随时检测系统的工作状态,协调各部分的工作;并将检测到的状态即时送给计算机,便于计算机对整个系统的管理。
4 软件处理
在大数据量的文档处理中,为了满足快速高效地处理,文档必须针对OCR技术或OMR技术进行专门设计。这样才适合光电阅读。在信息卡上设计定位标记块是一种有效手段。它分为水平定位标记块和垂直定位标记块,并且按照与填写的字符相同的颜色(黑色)来印刷。一个水平定位标记块表示一个字符行,垂直定位标记表示一个字符列。标记填写在以字符行列交叉点为中心的矩形区域。定位标记块主要用于字符定位和信息卡图像的倾斜校正,如图2所示。
另一种有效手段就是常常对信息卡学习,获得相应的先验知识,如信息卡的行数、列数、标记出现的主要区域、表格类型、每个黑色定位标记块的大致位置等。由于对同一批表格而言这些参数都是相同的,在对后续表格的处理中就可利用这些参数指导图像的分割和识别,从而提高了整批表格的处理效率。
硬件系统对信息卡进行扫描信号处理后,得到二值化的图像信号,但是二值化的图像信号中标记所代表的数字信息才是最终结果。为此,还要对二值化的图像信号在PC机上利用软件进行噪声处理、倾斜校正、分割及识别处理,得到感兴趣的识别结果。最后再将识别结果进行输出显示。在基于图像的OMR技术中,倾斜校正和图像分割是最关键的。
(1)倾斜校正
由于输纸机构有走纸不均匀的情况,信息卡图像不可避免地会产生一定的倾斜。因此必须对倾斜的图像进行旋转,旋转到正常位置,才便于图像分割。
对信息卡学习,获得正常图像的定位标记块的位置。将倾斜图像沿X,Y轴方向投影,所有的水平定位标记块和垂直定位标记块会分别在投影图上产生对应的峰,从而可以确定水平定位标记块和垂直定位标记块的位置。根据正常图像和倾斜图像的定位标记块的位置,就可以计算出旋转角δ。
将倾斜图像f(x,y)绕坐标原点O(0,0)旋转一个角度-δ,图像的原始坐标为(x,y),旋转后的坐标为(x',y'),按式(1)旋转变换,旋转后的图像为(x',y')。
javascript:window.open(this.src);" style="cursor:pointer;"/>
(2)图像分割
根据上述投影法,可以获得水平定位标记块和垂直定位标记块的位置,并得到交叉点的位置。由于标记填写在以字符行列交叉点为中心的矩形区域,并且设矩形区域长为X列,宽为Y行,以此交叉点向左向右各扩展(X+4)/2列,向上向下各扩展(Y+4)/2行形成一分割框,即矩形区域完全包含在该分割框内。逐行以分割框为单位对整个图像进行分割,并统计各分割框内的黑点数。若大于某个阈值,就认为有标记;否则就没有标记。再结合各标记事先定义的含义,得到识别结果。
基于图像的OMR技术采用图像传感器作为扫描部件,将信息卡的完整图像读入微机,并进行图像识别。它克服了采用光电对管阅读的OMR方式的缺点,同时它具有如下优点:
·识别精度高;
·纸张质量、印刷技术要求低,可以处理略有折皱的信息卡;
·调整表格灵活,可适应多种信息卡;
·采用了计算机图像处理技术,可保存信息卡的原始图像备查,提高了系统的安全性、可靠性和防伪性。
基于图像的OMR技术提高了信息卡处理准确率,应用在彩票阅读及识别系统课题中取得了良好的效果。