- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
基于ARM和Linux的字符采集与识别系统
2.图像识别模块
本文的目的是构建一个通用的字符识别系统,图像采集模块实现了对扫描件图像数据的获取。由于系统基于嵌入式L inux, 使得后续的图像处理与字符识别软件设计可以脱离硬件系统独立进行, 具有较高的通用性, 可以根据实际应用场合开发和扩展不同的识别软件, 本文仅探讨手写体数字识别的应用。
识别算法:
线性判别分析( L inearity D istinct ion Analysis,LDA)是有效的特征抽取方法之一, 广泛用于人脸识别和字符识别等领域[ 6] 。其基本思想是选择使F isher准则函数达到极值的一组矢量作为最佳投影方向, 样本在该矢量集上投影后, 达到最大的类间离散度和最小的类内离散度。为找到投影轴, 应最大化类间离散矩阵Sb 和类内离散矩阵Sw 的比值:
类间离散矩阵Sb 和类内离散矩阵Sw 的定义为
其中, c表示为模式的类别数; j 表示为第j 类的均值(其概率为pj ); 0 为全部样本均值; xji 为第j 类模式i的h维向量; nj 是第j 类的样本数; N 是所有样本数。j 和0 定义为:
最优化问题可以通过Sb 和Sw 的特征值的求解而获得。如果在样本离散矩阵中非目标样本占有比重较大, LDA 并不能保证找到最优子空间。LDA 的最优分类标准并不一定对分类准确性最优, 有可能使得已经分开的邻近类引起不必要的重迭。本文采用一种新的加权LDA 方法( ILDA ), 其计算S^b 和S^w 方法如下:
显然, 如果( )是个常数, 在投影方向上, S^b和S^w 分别等同Sb 和Sw。如果每一类的( )是不同的, 这将对临近类的重迭样本的分类产生影响。可以看出, 如果 ij较大, 则( )较小。
实验样本取自手写体通用数据库UC I, 在Bhattacharyya距离( BD)分类器下对加权线性判别分析与相应的算法进行实验比较和分析, 取得较好的识别性能, 证实了该方法提取的特征的有效性。
3.结束语
本文采用嵌入式Linux 和ARM 处理器软硬件平台, 利用C IS传感器配合运动平台实现了图像的采集和存储, 为嵌入式字符识别系统构建了一个图像采集平台。在字符识别的应用方面, 探讨了广泛应用的手写数字识别算法, 在已有的线性判别分析算法基础上, 提出了一种改进的加权线性判别分析算法, 并对该算法进行了实验验证, 获得了较好的识别率。
来源:维库开发网