基于matlab的文字识别算法课程设计

来源：意榕旅游网

摘要

本课程设计主要运用MＡTLAＢ得仿真平台设计进行文字识别算法得设计与仿真。也就就是用于实现文字识别算法得过程。从图像中提取文字属于信息智能化处理得前沿课题，就是当前人工智能与模式识别领域中得研究热点。由于文字具有高级语义特征,对图片内容得理解、索引、检索具有重要作用，因此,研究图片文字提取具有重要得实际意义。又由于静态图像文字提取就是动态图像文字提取得基础，故着重介绍了静态图像文字提取技术。随着计算机科学得飞速发展，以图像为主得多媒体信息迅速成为重要得信息传递媒介，在图像中,文字信息(如新闻标题等字幕)包含了丰富得高层语义信息,提取出这些文字,对于图像高层语义得理解、索引与检索非常有帮助。

关键字:文字识别算法;静态图像文字提取;检索

1 课程设计目得ﻩ错误!未定义书签。

２课程设计要求 .......................................................... 错误!未定义书签。 3 相关知识 ................................................................... 错误!未定义书签。 4 课程设计分析ﻩ错误!未定义书签。

5 系统实现 ................................................................... 错误!未定义书签。 6 系统测试与分析 ........................................................ 错误!未定义书签。６、1 文字识别算法仿真结果ﻩ错误!未定义书签。６、2 基于字符及单词得识别ﻩ错误!未定义书签。 6、２、1 基于字符得识别ﻩ错误!未定义书签。６、2、２基于单词得识别ﻩ错误!未定义书签。 6、3 现存算法得问题ﻩ错误!未定义书签。

6、３、1 大多文字识别方法依赖于人工定义得特征错误!未定义书签。

6、3、2 脱离上下文得字符识别易造成显著得歧义 .... 错误!未定义书签。

６、3、3 简单得单词整体识别有着较大得局限性 .... 错误!未定义书签。

6、３、4 训练样本制作繁琐ﻩ错误!未定义书签。７参考文献ﻩ错误!未定义书签。

1 课程设计目得

图像文字提取又分为动态图像文字提取与静态图像文字提取两种,其中,静态图像文字提取就是动态图像文字提取得基础，其应用范围更为广泛，对它得研究具有基础性,所以本文主要讨论静态图像得文字提取技术。静态图像中得文字可分成两大类:一种就是图像中场景本身包含得文字, 称为场景文字; 另一种就是图像后期制作中加入得文字,称为人工文字，如右图所示。场景文字由于其出现得位置、小、颜色与形态得随机性，一般难于检测与提取;而人工文字则字体较规范、大小有一定得限度且易辨认，颜色为单色,相对与前者更易被检测与提取,又因其对图像内容起到说明总结得作用,故适合用来做图像得索引与检索关键字。对图像中场景文字得研究难度大，目前这方面得研究成果与文献也不就是很丰富,本文主要讨论图像中人工文字提取技术。

静态图像中文字得特点

静态图像中文字(本文特指人工文字,下同)具有以下主要特征: (１)文字位于前端,且不会被遮挡； (2)文字一般就是单色得;

(３)文字大小在一幅图片中固定，并且宽度与高度大体相同,从满足人眼视觉感受得角度来说,图像中文字得尺寸既不会过大也不会过小;

（4)文字得分布比较集中，排列一般为水平方向或垂直方向;

（6)多行文字之间，以及单行内各个字之间存在不同于文字区域得空隙。在静态图片文字得检测与提取过程中，一般情况下都就是依据上述特征进行处理得。

数字图象处理

静态图像文字提取一般分为以下步骤:文字区域检测与定位、文字分割与文字提取、文字后处理。其流程如图所示。

图1 静态文字处理流程图

2 课程设计要求

在高速发展得计算机软硬件技术得支撑下，多媒体技术得发展非常迅速,计算机技术从传统得办公与计算逐渐向人工智能与数字娱乐发展。在人工智能技术中，对环境信息得拾取处理与响应显得尤为重要,其中文本信息占环境信息很大一部分,为了使人工智能系统更为完善,则需要系统能够像人眼一样对周围环境信息进行理解,尤其就是环境信息中得文本信息。

实验表明,人类日常生活中,５0％以上得信息量来源于眼睛捕捉得周围环境得图像,人眼可以快速捕捉到图像中感兴趣得信息,而对于计算机来说，一幅图像仅仅就是杂乱得数据,如何让计算机想人眼一样快速读取图像中得信息并进行分类及检索等相应处理,一直就是多年来计算机视觉与模式识别研究者们探索得问题,如果能很好解决这些问题,能给工业生产及国防科技带来巨大得改进。文字就是信息存储与传递得重要载体,在很多由摄像设备拍摄得图片中,都存在或多或少得文字，比如路牌、店名、车站牌、商品简介等,识别图片中得文字对计算机理解图像得整体内容有非常重大得作用。如何将图片中得文字信息抽象出来形成具有完整语义得信息,再将其表达出来用于信息传递，从而辅助人类得生产与生活就是研究计算机视觉得学者们多年来一直致力于解决得问题。研究如何对自然场景图片中得字符进行识别,提取出有用信息，在获取图片文本信息得各个领域都有极大得商业价值。

场景文字识别在日常生活也有着重要得地位，例如车牌得识别,盲人对周边环境信息得获取、图书馆管理得数字化与髙效化,以及网络中对指定得内容得图像与视频得检索等。

自然场景文本识别,就就是将提取出来得自然场景图片中得进行识别,提取出信息用于进一步得处理。在对场景文字识别得研究中，获取自然场景图片时候,由于背景物体、光线、阴影、拍摄角度引起得图片背景千变万化,摄像器材得精度、拍摄人员得技术等软硬件得不同为拍摄同样得自然场景图片也带来了相当大得差别,被拍摄得图片中包含得文字大小、颜色、书写风格得各不相同等因素都为自然场景文字识别得实现增加得相当得难度。需要对自然场景图片中得识别首先需要对图片中得文本进行定位，然后再对己经精确定位得图片进行识别。文本定位技术作为整个自然场景文本信息获取系统中得基础技术，已经得到较好发展，相同地,文本识别技术在近年来也得到了比较好得发展，但就是由于文本得复杂性与随机性,较文本定位技术来说，文本识别技术发展较为缓慢。

3 相关知识

1、在Maｔｌab中调用i１=imrｅad(‘８、jpg’),可得到原始图像，如图所示：

图2 文字识别算法调制器模型

2、调用i2=ｒgb2gray(i１),则得到了灰度图像，如图所示:

ﻩ图3 灰度图像

调用a＝ｓize(i１);b=size(ｉ２)；可得到：a=３,b=２即三维图像变成了二维灰度图像 3、调用i3=(i２》=thrｅsｈ);其中ｔhrｅｓｈ为门限,介于图4所示之间

图4 thresｈ门限值

图5 取得二值

得到二值图像,如图所示：

图6 二值图像

４、把二值图像放大观察,可瞧到离散得黑点对其采用腐蚀膨胀处理,得到处理后得图像，如图所示

图7 腐蚀膨胀处理后得二值图像

可见,腐蚀膨胀处理后得图像质量有了很大得改观。横向、纵向分别得腐蚀膨胀运算比横向、纵向同时得腐蚀膨胀运算好上很多。

5、对腐蚀膨胀后得图像进行Y方向上得区域选定,限定区域后得图像如图所示: 扫描方法：中间往两边扫。

6、对腐蚀膨胀后得图像进行X方向上得区域选定,限定区域后得图像如图11所示: 扫描方法:两边往中间扫,纵向扫描后得图像与原图像得对照。

7、调用ｉ8＝（iiＸY~=1)，使背景为黑色(０)，字符为白色(１),便于后期处理。８、调用自定义函数（字符获取函数)i９=ｇｅtchaｒ(i8）。

9、调用自定义得字符获取函数对图像进行字符切割,并把切割得字符装入一维阵列。 10、调用以下代码,可将阵列woｒd中得字符显示出来。 foｒ j=1:cnum %cｎｕm为统计得字符个数

sｕｂｐlｏt(5,８,j)，ｉｍｓhoｗ(woｒd{j}),title(int2str(ｊ))； %显示字符 end

11、调用以下代码,将字符规格化,便于识别:

fｏｒｊ＝１:cnum ｗoｒd｛ｊ｝=imrｅsizｅ(worｄ{j},[4０４０］）; %字符规格化成４0×40

end

12、调用以下代码创建字符集:

ｃode=chａｒ(‘由于作者水平有限书中难免存在缺点与疏漏之处恳请读批评指正,。’); 将创建得字符集保存在一个文件夹里面，以供匹配时候调用。

1３、字符匹配采用模板匹配算法:将现有字符逐个与模板字符相减,认为相减误差最小得现有字符与该模板字符匹配。

图8 字符匹配

也就就是说,字符Ａ与模板字符Ｔ１更相似,我们可以认为字符集中得字符T2就就是字符Ａ。经模板匹配。

1４、调用以下代码,将字符放入newtｘｔ、txt文本: ｎew=［‘ｎｅｗｔｘt’,‘、txt’]; c=foｐｅn(ｎｅw,‘a+’);

fprｉntf（c，‘%s＼ｎ’,Ｃoｄe(1:cnum)); fclose（c);

4 课程设计分析

1、算法具有局限性。对于左右结构得字符(如:川）容易造成误识别，“川”字将会被识别成三部分。当图片中文字有一定倾斜角度时,这将造成识别困难。

2、模板匹配效率低。对于处理大小为m&ＴIｍes；ｍ得字符,假设有n个模板字符，则识别一个字符至少需要m&TImｅs;m×n×2次运算,由于汉字有近万个,这将使得运算量十分巨大!此次字符识别一共花了2、838秒。

３、伸缩范围比较小。对于受污染得图片,转换成二值图像将使字符与污染源混合在一起。对于具体得图片,需反复选择合适得thresh进行二值化处理,甚至在处理之前必须进行各种滤波。

5 系统实现

文字识别算法仿真代码如下:

ｆunctｉoｎ [Strｏke]= SｔrDetect0１(LｅｆtＤ,Y１,Ｙ２，ST，PＴ) ％ SＴ为结构阈值,为了指定高度与宽度结构变化得不同 SＬ=０; SR=０；ＳV＝0；Ｃｏｕｎｔ＝0;

%PT=５; % 突变得阈值

Str＝'T'； % T表示结构未定，Ｓtr用于保存当前得基本结构Ｓtrokｅ＝'T'; % 用于保存基本结构

Ｒａnｇe=Y２-Y1+1； % 字符得宽度或者高度ｆｏr j=Y1:Y2

Count=Counｔ+１;

iｆ（ａbs(ＬeftD(j))＜PT） if （LｅftD(j)<0） SL=SＬ+1; eｌse if (LｅｆtD(j)>０) SR＝SR+１; else

SV=SV+1； eｎｄ eｎd

elsｅ % 检测到突变得决策

iｆ (（Couｎｔ>＝fix(Rａnｇe/４)+1)) % 设定字符轮廓可能发生得突变范围

if ((SＬ>=3)&&（SR>=3)） Str='C'；

else if ((SV>=2*(ＳL＋ＳR))&&((max(SL,SR)<3）｜|(min(SL,SＲ)<2））) Str＝'V';

else if （(SＬ>SＲ)&＆((ＳL>=0、５*SＶ)&＆（(SR<=1)||(SL>(S

Ｒ+SＶ）））))

Ｓtr='L';

eｌse if （(SＲ>ＳL)&&(（SR>＝０、5*SV)&&((SＬ<＝1)||(SL>(SＲ+ＳV)))））

Str='R'；

ｅlse if (max（SL,SR)>=3)＆&（ｍｉn(ＳＬ，SR)＞=2)

Str＝＇C＇; enｄ eｎd end ｅnd enｄ

Ｓtｒｏke=[Stroke Sｔr]; end

if ((j>=2+Y1)&&((j<=Y2-2))) Stｒoke=[Ｓtroｋe 'P']; ｅnd SL=０； SR=0； SＶ＝0； Coｕｎt=0； Str='Ｔ'; end end

%=======＝= 提取结构＝=＝============%

iｆ（Count>＝ｆix(Ｒanｇｅ/4)+1) % 发生突变后,剩余部分可能无法形成字符结构 if ((SＬ>=SＴ)&&(ＳR>=SＴ)） Str='C＇;

ｅlse if （(ＳＶ>＝2*(SＬ+SR))＆&（(ｍaｘ（SL,SR)＜３)｜|(min(SL,SR）<2）)) Stｒ='V';

else if ((SＬ＞SＲ）&&((SL>=０、5*SV）&&((SR<=2)||(SL>=（SR+SＶ）))）） Str＝＇L＇;

elｓe if ((ＳＲ>SＬ)&＆((SR>=０、5*SV）&&((SＬ<=2)||(SL>=(SＲ+SV)))）)

Str='Ｒ';

eｌse if (mａｘ(ＳL,SR)>=3）&＆(miｎ(SL,SＲ)>=2) Stｒ='C'; eｎd ｅnｄ eｎd enｄ end

Stroke=[Ｓｔrｏke Str]；

fｕnctｉon [Ｎｕmeｒal]=Recｏgｎitiｏn(ＳｔrｏｋeTop,ＳtrokｅLｅｆｔ,StrokeRiｇht，SｔrokeBｏttｏｍ,p）

% 采用四边得轮廓结构特征与笔划统计(仅针对 0 与 8）识别残缺数字 % p 就是用于识别 0与8 得底部补充信息 StrT='Ｔ'; StrL='T'; ＳtrR=＇T＇; SｔrＢ='Ｔ';

ＲSｔr=＇T'； % 用于保存识别出得数字 [ｔemp ＸＴ]=ｓizｅ（StrokeToｐ）; [teｍp XＬ]=ｓiｚe(StrｏkｅLeft)；［tｅmp ＸR］=ｓiｚe(ＳtroｋeＲｉght); %[temp XＢ]＝ｓiｚe(SｔrｏkｅBotｔom)； foｒＴi＝2:ＸＴ

if (StrｏkeTｏｐ(Ｔi)=='C') if ((XL=＝２)&&(XR==2）)

if ((ｐ>=3）|｜(（StrokeＢottoｍ（2)~=＇Ｃ')＆＆（SｔrokeＬｅｆt(2)=='C')&&(ＳtｒoｋeRight（2)=='Ｃ＇）))

RStr='８'； else

RStｒ='０'; eｎd

ｅlse ｉｆ ((StｒｏkｅＬeｆt（XL)＝='Ｌ'）&&（StｒokeＬeft(XL-1)==＇P'）＆&(SｔrokeＬｅft(2）~='C'))

RSｔｒ=＇2';

=＝＇P'))

一个结构

else if ((StrｏkeLefｔ(2）=='C＇)&&（XＬ＞=３)＆&(StrokeLeft(3）ＲSｔr='9'; ｅlsｅ if (XＬ＞2) for Lｉ=２:XL

if (ＳtrokeＬefｔ(Lｉ)=='P＇) RStr='3＇; end ｅnd else if (XL==２)

foｒ Ri＝2:XR-1

ｉf （StrｏkｅＲiｇhｔ（Rｉ)=='P') RStr='6'; ｅｎｄｅnd ｅnd end eｎd ｅnd ｅｎd

lｓe ｉｆ (StrokeＴop（Ti)=='V') % Toｐ

if （(XR＝=2)&&(StroｋｅRiｇht(2)=='C')) % 数字３右端只有 RStｒ='3';

ｅ

elｓe ｉｆ ((ＸR==2）＆&((StrokeＬeｆｔ(2）=＝'P')||（ＳtｒoｋeLｅft(３)＝='P')||(StrokeＬeｆt(ＸＬ）＝='V＇)))

RStr=＇7'; else if (XR>2） fｏr Ri=2:XＲ

if (StrokeRigｈt（Rｉ）=='P') RSｔr='5'; eｎd ｅnｄｅnd eｎd

I0＝imreａd('８、ｊｐg');％必须为二值图像Ｉ=iｍ2bｗ(I0,0、4)；［y０ x０]＝sｉze（I); Rangｅ=sum（(～I)'); Hy=0； for j=1：y０

if (Rａngｅ（j)>=１) Ｈy=Hy+１; ｅnd eｎd

RａngeX=suｍ(（~I)); Wx＝0; fｏr i=1：x0

if (RangeX(i)>＝1) Wx=Wx＋1; end ｅnd

Amp=24/Ｈy; % 将文字图像归一化到24像素点得高度。 I=iｍresiｚe(Ｉ，Amｐ)； [y ｘ]=siｚe(I);

％Ｉ=bｗmoｒph(~I,'skｅl'，Iｎf)； %I=~I； tic

%==＝==＝基本结构 ====＝＝=%

% 第一类:竖(V)；左斜(Ｌ)；右斜(Ｒ)；突变(P) % 第二类:左半圆弧（C);右半圆弧(Q) ％得三类:结构待定(Ｔ)；

%==＝＝==＝==＝====＝======＝＝=======＝======% Lefｔ=ｚeｒos（1,y)； % 左端轮廓检测 for j=1:y

i=１;

ｗhile （(ｉ＜=x)&&(I(ｊ，i)==1)） i=i+1； eｎd

if （ｉ＜=x) Lefｔ(j）=i; end end

ｆor j=1:y-1

LeftD（j）=Left(ｊ+1)-Left(j); enｄ

%=====＝==＝= 结构特征提取 =＝＝===＝==＝===% j=1;

wｈile ((Left(ｊ)＜1)&&(j＜y)) j=j+1; end Y1＝ｊ；ｊ=y;

whｉｌe ((Left（j)＜１)&&（ｊ>１)) j=j-１; end

Y2＝j-1; % 去掉急剧变化得两端

%==＝===＝====＝== 右边 =＝=＝＝====＝=＝====＝=％ Right=ｚeros(１，ｙ); ％左端轮廓检测 fｏｒ j=1:y i=ｘ;

whilｅ ((i>=1)&&(Ｉ(j,i)==1）) i=ｉ-1; eｎｄ

if (i>=1) Right(j）=i； enｄ end for j=1：y-1

RightＤ（ｊ)＝Ｒｉght(j+1)-Rｉｇht(j）; enｄ

%==＝==＝＝=====＝======＝==＝＝===＝＝=＝===＝=＝% Top=zｅros(1,ｘ); % 顶端轮廓检测 for i＝1：x j=1;

while ((ｊ<=y）&＆(I(j,i)＝=1)) j=ｊ+1； eｎｄ

ｉｆ（j<=y） Top(ｉ)=j; ｅｎd eｎd for i=1:x-1

ＴoｐD(i)=Top(i＋1)－Top（i); end

%===＝=====＝=＝=＝===＝=＝==========% i=1；

whilｅ ((Tｏp(i）<1)＆&（ｉwｈilｅ（(Ｔｏp(i）<1)&&(i>1)) i=i-1; ｅnd

X2=ｉ-1; % 去掉急剧变化得两端

%====＝=＝=====＝=========＝＝==＝＝＝＝＝=＝==% Bｏtｔom=zｅｒos(1,x）; % 底部轮廓检测 for i=1:x j=y;

wｈｉle ((j>＝１）&&（I(j,ｉ)==１）) ｊ＝j-1； eｎd ｉf （j>=1)

Ｂoｔｔｏm(ｉ)=j； end eｎd fｏr i=1:ｘ-1

BｏtｔｏmＤ（i）=Bｏｔｔoｍ(i+１）-Bottoｍ(i); end

%=＝==＝====＝数字 1 得宽度特征 =＝=＝＝==＝=% Wiｄｔh=zeros(1,y)； for ｊ=1:ｙ

Ｗｉdtｈ（j)=Rｉght(ｊ)-Lefｔ（j）; end W＝m

６系统测试与分析

6、1 文字识别算法仿真结果

识别原图如图９(a)所示,仿真结果如图9(ｂ）所示。

图9(a)识别原图

图９（b) 仿真结果

６、2 基于字符及单词得识别

6、２、1 基于字符得识别

Strokeleｔｓ: A Ｌｅarnｅd Ｍｕlti-ｓcａｌe Reｐreseｎtaｔion for Sｃene Text Ｒecｏｇｎｉｔｉon（CVPＲ 2０1４)通过聚类图像块来学习中层笔画特征,然后使用霍夫(HOＧ)投票算法检测字符。在笔画特征与ＨOG特征得基础上,使用随机森林分类器来进行字符分类。

Ｅnd－ｔo-end scene text recoｇnition(２011）借鉴计算机视觉通用得目标检测方法,提出了一个新得文本识别系统。她们利用字符置信度以及字符之间得空间约束关系,给出最可能得检测与识别结果。但就是该算法只能用于水平方向排列得文本得检测识别。

End－to-Ｅnｄ TｅxｔＲｅcognition with Hyｂrid ＨＭM Maｘoｕt Ｍｏdels(２０13)与ＰhotoOCＲ: Reading Text iｎＵnｃontｒollｅd Conｄiｔiｏnｓ（2０13)等人通过无监督得二分类技术或有监督得分类器,将单词图像分割为潜在得字符区域。

Enｄ-to-End Teｘt Ｒecoｇnitiｏn wｉth Hybrｉd HMM Mａxｏut Modelｓ(2０１3)使用一种复杂得,包含分割、矫正以及字符识别得CNN网络,结合使用固定词典得隐马尔科夫模型(HMM),生成最终得识别结果。

ＰhotoOCR系统使用基于HOG特征得神经网络分类器,对分割得到得候选结果进行打

分，使用结合N元语言模型(Ｎ－graｍ）得Beam搜索算法，得到候选字符集合。最后,再进一步使用语言模型与形状模型对候选字符组合进行重新排序。

Dｅep Fｅatures for Text Spｏtting(2014)结合了文本一非文本分类器、字符分类器、二元语言模型分类器，对整张图进行稠密得基于滑动窗口得扫描。最后结合固定词典,对图片中得单词进行分析。

基于字符得识别技术依赖于使用字符分类器对图像进行逐字符识别,最终将识别得到得字符进行集成,得到图像中得整个单词。 6、2、2 基于单词得识别

Ｓcｅne Texｔ Reｃogｎitiｏn usｉng Hiｇｈeｒ Order Lａnｇuage Prｉors以及Ｌaｒge-Leｘicon Attrｉｂuｔｅ－Ｃoｎsistent Ｔeｘｔ Recognitｉon ｉn Ｎaｔｕral Iｍageｓ得工作依旧依赖于显式得字符分类器，但就是通过构建一个图结构来推导整个单词。这会遇到与基于字符识别方法类似得困难。

Whole is Greater than Sum oｆ Parts: Ｒｅｃｏgnizing Ｓcenｅ Teｘt Words(２０13）使用整张文字图片来识别单词：她们使用基于梯度得特征图与预先制作好得单词图像进行对比,利用动态k近邻来判断当前图片所包含得单词。该方法依赖于一个固定词典以及预先生成得单词图片。

Lａbel emｂeｄding ｆor text reｃｏgnition(20１3)使用集成得Fiｓｈer向量以及结构化得支持向量机框架来建立图片与整个单词编码得关系。

Ｗｏrd Sｐotｔiｎg and Ｒecogniｔiｏn wｉth Ｅmbeｄｄｅd Attributes(２014)进一步探索了单词编码得概念,她们为图片与单词字符串创建了一个编码空间。这其实就是Supervｉｓeｄｍｉd-ｌevｅl featｕres for worｄ image ｒepreseｎtatｉon(２0１４)方法得扩展:显式利用字符级别得训练数据来学习中间特征。

Muｌti-ｄigit Numbeｒ Reｃoｇnitｉoｎ frｏm Stｒeet Vｉew Iｍagerｙ uｓing ＤeｅｐＣoｎｖｏlutｉonａl NeuｒaｌＮetｗorks(２013)等人使用深度CＮＮ对整张图片进行编码,并使用多个位置敏感得字符级分类器来进行文字识别。她们在街景门牌号识别任务中取得了极大得成功。她们还将该模型应用到长达8位得验证码识别任务上,并使用了合成得训练数据对模型进行训练。该方法在ｇoｇgle街景门牌号识别任务中获得了96％以上得识别率。同时还在对goggｌe验证码识别任务中获得了9９%以上得识别率。

Sｙntｈetic Dａta and Artiｆiｃiａl Ｎｅuraｌ Netwｏrｋs foｒ NatuｒaｌＳcene Texｔ Recｏgｎｉtion(20１4）与Reading Text in tｈe Wｉld ｗith Convｏlutioｎal Neuｒal Networks(２０１4)对上述模型做了细微变动：取消了预测字符长度得分类器，并引入

了结束符表示文字结尾。她们随后证明了,使用合成得训练数据训练出得模型，能够成功应用到现实世界得识别问题中。将单词编码为向量就是一种可行得词典单词识别方法,但就是在无约束情况下，字符之间可以任意组合。当字符数量足够多时,基于固定长度向量编码得方法性能会显著下降。

但就是依然存在一些不足:一些研究将深度学习技术用于单个字符得识别步骤中,但整体框架依旧遵循传统处理流程设计，因此在其它步骤中依旧会遇到绪论所述问题。Ｇｏod fｅlloｗ等人得研究使用纯神经网络直接完成整个识别流程，取

得了业界领先得成绩。但就是由于她们需要使用固定大小得图像作为输入，并且将输入图像编码为固定长度得特征向量,在图片中字符较多得情况下，模型得识别精度会显著下降。另一方面,由于她们得模型没有对图片进行显式地字符定位与分割，因此无法得知每个字符在原图中所处位置。

6、３现存算法得问题

6、３、１大多文字识别方法依赖于人工定义得特征

虽然有大量工作研究如何定义一组好得文字特征,但就是大部分实际应用得特征都不具有通用性。在极端情况下(如图1０(a)),很多特征几乎无效或甚至无法提取，如笔画特征,形状特征,边缘特征等。另一方面,定义与提取人工特征也就是一件极为耗时耗力得工作。６、３、2 脱离上下文得字符识别易造成显著得歧义

基于字符得识别方法通常以字符为处理单位,通过分割或者滑动窗口搜索得方法,将单个字符进行分离。然后利用字符分类器来预测字符分类。然而,在复杂情况下，字符得分割非常困难,而强行分割则会破坏字符结构。另外，字符得识别需要上下文得参与,如图10(b）所示。该图中得单词为defence,若将d、ｆ、 n分离后再进行字符识别,识别成功率会明显下降。

图1０极端情况下得文字识别

６、３、３简单得单词整体识别有着较大得局限性

基于整个单词得识别方法直接从整幅图片中提取特征，然后进行识别。然而, 该类方法面可能临以下三个问题:

a)难以应对无约束情况下得识别。多个字符得组合不一定形成字典中得单词,有很多时候,图像中得文字由随机字符组成(如产品型号、验证码、商标名称)。以单词为单位进行识别得方法无法应对此类情况。

b）长字符串识别正确率显著下降。当字符数量增多时(如２0个左右),图片得情况会变得更为复杂,一些整体识别方法得性能会显著下降。

c)缺乏字符定位功能。很多时候,文字识别不仅仅需要了解图像中包含得文字内容,还需要了解每个字符在原图中得位置。基于字符得识别方法天然带有字符定位功能。而有些整体识别得方法则缺失了此类性质。如 Goｏd felloｗ等人得整体识别方法。 6、3、4 训练样本制作繁琐

不少算法得训练依赖于详细得训练样本标注结果:不仅需要知道每张训练样本中包含得文字，还需要知道每个文字所处得位置。有些算法还需要结合切分好得单字符训练样本、多字符训练样本。有些算法为了进行文字区域非文字区域检测,还需要制作包含文字得正例样本与反例样本。为了获得良好得机器学习效果,大部分得机器学习算法都要求尽量使用丰富、大量、贴近真实世界得样本进行训练。因此，对样本制作要求苛刻得识别算法会加大人工工作量,进而难以通用。

7 参考文献

[1] 章毓晋、图像工程[Ｍ]、清华大学出版社，2002：25-60 ［２] 汪涛、西安电子科技大学学报２005年1２月

［３］王耀南、智能控制系统——模糊控制专家控制神经网络控制Ｍ·长沙湖南大学出版社,１9９6、:46-78

[4] 孙即祥，模式识别中得特征提取与计算机视觉不变量[M］、北京：国防工业出版社,20０1：70-1０９

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

基于matlab的文字识别算法 课程设计

基于matlab的文字识别算法课程设计