多媒体

  初识多媒体
  怎样与多媒体打交道
  缤纷世界的背后
  来来往往多媒体
  多媒体时代的通行证
  如何把精彩留给自己
  新的世纪从多媒体开始

移动通信

计算机网络

智能网

光通信

微波通信

卫星通信

交换网

接入网

电信管理网

 

    
  电信博物馆 > 多媒体 > 怎样与多媒体打交道 > 低眉信手续续弹

 


脱机手写汉字识别

  一、汉字识别概述

  汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的贡献,并将继续发挥重要的、其它文字形式难以取代的作用。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人—机交流信息效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。

  围绕这一问题,人们提出了各种解决方案。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种。

  自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。

  汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机手写汉字识别和脱机手写汉字识别。

  从识别的角度来看,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。可喜的是,经过科研人员的努力,我国已有印刷体汉字识别和联机手写汉字识别的商品出售,目前已形成百家争鸣、百花齐放的局面,但是脱机手写汉字识别还处于实验室研究阶段。在脱机手写汉字识别领域,非特定人脱机手写汉字识别又难于特定人手写汉字识别。

  二、 手写汉字识别中存在的问题及困难

  手写汉字识别是一种重要的、适用于把手写文稿随时输入计算机的方法,也是机器字符识别最为困难的一个课题,这些困难和问题表现在:

  1、汉字类别多。仅《康熙字典》中就包含了49000多个汉字,而常用的汉字就有4000多个,因而汉字识别问题属于大类别(或者称为超多类)模式识别问题,在模式识别理论和方法研究方面有重大意义。 

  2、汉字字形结构复杂。 汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难得多。因不同人书写风格的差异造成手写汉字的变形很大,具体表现在以下几个方面: 

  (1)基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐角变成圆弧等。
  (2)笔画模糊,不规范,该连的不连,不该连的却相连。
  (3)笔画与笔画之间、部件与部件之间的位置发生变化。
  (4)笔画的倾斜角、笔画的长短、部件的大小发生变化。
  (5)对于脱机手写汉字,不同人使用不同的书写笔可能造成笔画的粗细变化。

  其中,手写汉字字形的变化是最难以解决的问题。

  一般认为,联机手写汉字识别比脱机手写汉字识别相对容易些。联机手写汉字识别是一种人工实时地把汉字输入计算机的方法,它利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息,而脱机手写汉字识别处理的仅是二维的汉字点阵图象,是汉字识别领域中最后一个十分困难的问题,目前仍然处于实验室研究阶段。

  由此可见,对非特定人脱机手写汉字识别而言,如果对手写汉字的书写不加任何限制(即为自由手写体汉字),则识别难度相当大。科学研究中人们总是遵循从易到难的规律,从简单的问题入手来寻求突破口。由于自由手写汉字识别太难,人们提出了手写印刷体汉字识别,这已成为目前脱机手写汉字识别的主要研究对象。所谓手写印刷体是指书写工整的楷书手写体,要求书写者工整书写,尽量少连笔。

  三、展望

  我们研究非特定人脱机手写汉字识别的目的就是使识别系统能够实用化。由清华大学电子工程系图象教研组 OCR(光学字符识别)实验室研制的THOCR-97综合集成汉字识别系统于1997年3月22日通过了由国家教委组织的鉴定并获得了高度评价,其中的非特定人脱机手写汉字文本识别子系统,对于书写较为工整的手写汉字文本,正确识别率达95.8%,为该子系统走向实用化奠定了良好的基础。可以乐观地预言,在今后的5年内,非特定人脱机手写印刷体汉字识别文本系统将会有产品走向市场。然而,对于自由手写体汉字识别而言,任重道远,仍需要科研人员不懈的努力,但是我们不应该就此悲观,随着计算机技术的突飞猛进和人脑功能的进一步揭示,可望在不远的将来发现人脑的识字机理,建立在此基础上的手写汉字识别的理论和方法将会有质的飞跃。

[上一页] [下一页]