多媒体

  初识多媒体
  怎样与多媒体打交道
  缤纷世界的背后
  来来往往多媒体
  多媒体时代的通行证
  如何把精彩留给自己
  新的世纪从多媒体开始

移动通信

计算机网络

智能网

光通信

微波通信

卫星通信

交换网

接入网

电信管理网

 

    
  电信博物馆 > 多媒体 > 怎样与多媒体打交道 > 低眉信手续续弹

 


印刷体汉字识别系统

  一、文字识别概述

  从上一部分的介绍中我们可以知道,从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。

  与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物,但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的制约因素。电子化与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。

  二、印刷体文字识别的研究历程

  印刷体文字的识别很早以前就是人们的梦想,早在1929年,Taushek就在德国获得了一项有关OCR(光学字符识别)的专利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从50年代就开始了西文OCR技术的研究,以便代替人工键盘输入。

  印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。

  我国对印刷体汉字识别的研究始于70年代末80年代初,大致可以分为三大阶段:
  (1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。
  (2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。
  (3) 第三阶段也就是目前,主要是印刷体汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳定性的增强。

  同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

  清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH-OCR产品,始终处于技术与产品发展的最前沿,并占据着最大的市场份额,代表着中文OCR技术发展的潮流。

  这一成就,是对中华文化宝贵遗产的继承和发扬,在世界电脑发展史上,必将留下光辉的一页,同时,这也是造福子孙千秋万代的大事。国家高技术研究发展“863"计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对这一研究课题予以极大的重视和大力的支持。

  三、结论与展望

  总体来说,近几年来国内对印刷体汉字识别的研究还是相当深入的,也取得了很大成绩,使系统的识别率不断上升。目前印刷体汉字识别系统的应用已经相当成熟。例如,刚刚通过国家教委鉴定的清华TH-OCR97综合集成汉字识别系统,对中等质量的样本,识别率已经可以达到99%左右或更高。不过,这些系统还存在着一些可改进之处:

  1、从识别角度
  (1) 汉字识别率总是汉字识别中最重要的指标,应该达到更新的高度,从而最大程度地减少用户校对、修改的工作量。
  (2) 印刷体汉字识别的鲁棒性(Robustness)还不够强。Robust在英文中是“健壮的”或“强的”之意。鲁棒性可以理解为识别系统对于不同质量、不同字号、不同字体的文本图象表示出来的适应性。在文字识别中,识别系统的鲁棒性尤其反应在随着印刷质量的下降,系统误识率的上升趋势上。
  目前的OCR系统都对扫描图象的质量有一定要求,扫描亮度不能太暗也不能太亮,保证文字的图象即不会暗成一个黑块也不会亮得笔画发生很多断裂。这就对用户的使用提出了较高要求。
  印刷文本的质量可能千差万别,一般用户对扫描仪的操作也可能不够合适,这往往造成识别图象的质量不佳,为使任何未经训练的用户都能用好OCR系统,系统的鲁棒性必须不断提高。
  (3) 汉英混排文本的切分仍不够成熟。与识别技术相比,对切分的理论和方法还缺乏系统的研究和有效的成果。随着汉字识别率的上升以及汉英混排文本的增多,切分错误在所有错误中所占的比重不断上升,怎样使文字正确分割变成了另一个还未很好解决的问题。

  2、用户界面和自动化程度方面
  (1) 扫描仪自动亮度调节,无须用户选择门限,自动随文本种类、印刷质量不同选择合适的扫描仪亮度门限,以保证识别率。
  (2) 版面的自动分析,无需人工干预,可以将印刷文本材料,如报纸、杂志等,上面有各种插图、表格、花边,且同时存在横、竖版面等加以区分和作相应的标记,以便分别处理。
  (3) 中文印刷表格的自动录入,对于中文印刷表格,可以进行框线的自动检测、栏目自动切分,直至将各栏目中的内容识别出来,并且可以和数据库直接相连,完成印刷表格自动录入至数据库的任务。
  (4) 版面自动恢复,仅有文字识别往往不能满足实际需要。能够保持原来的排版形式、字体信息、表格和插入的图形图象,以便在Word、北大方正等排版软件中直接修改,一直是许多用户的梦想。
  (5) 系统提供用户自学习功能,使用户自由地扩大专业识别字符集;以及适用于各种应用环境的汉字识别系统。例如:MS-DOS环境、Windows环境和UNIX环境下中文OCR版本,满足不同用户的需求。

  3、其它方面
  (1) 系统总体性能的进一步提高。解决像报纸这种栏目多而位置排列复杂的印刷文本材料的版面自动理解;利用自然语言理解知识进行识别后处理;进一步提高英文的识别率和适应性,降低系统的误识率,等等。
  (2) Internet/Intranet上的网络版本。充分利用网络上的资源及计算能力,提高系统的性能,使用户能够更方便地协同工作。
  (3) 系统固化以及系统各部分的质量和性能的稳定提高。
  (4) 扩大OCR核心技术的应用范围,开发更多的应用系统,并将研究成果迅速转化为产品,提高软件的商品化水平,使之能大量地走出国门,走向全世界。
  这些都是汉字识别系统急待解决的问题,也是汉字识别技术今后努力发展的重要方向。

[上一页] [下一页]