OCR技术在档案数字化过程中的应用

发布时间:2017-08-07阅读1660

 信息时代,档案数字化已成为档案工作的重中之重,纸质档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件,也就是说,计算机只认识档案的外表,却不认识其内在文字,用户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文本形态的电子档案,使档案数字化工作更加有效,更加彻底,便要应用到OCR技术。

一、汉字识别技术(简称OCR)概况

 所谓OCR (Optical Character Recognition),即光学字符识别,也可简称文字识别,实际上是让计算机认字,是一种文字自动输入方法。其原理是通过专门的OCR软件,将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码,并按通用格式输出保存在文本文件中。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。


二、0CR识别技术在档案数字化中的优势,主要体现在两个方面:

 (一) 0CR是一种实现文字自动输入的快捷省力方法,广泛应用于网上资源数据库和数字图书馆的建设。

 1.从库存档案的情况来看,相当一部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的利用需求。

 2.从办公自动化的发展情况来看,每年接收的档案中仍然有相当数量的档案没有文本文件。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

 (二)0CR软件为我们提供了一条新的途径、新的著录方式,使档案条目通过计算机录入成为可能。

 汉字是形、声有机结合的方块字,其数量大,结构繁杂,字体字形变化多端,无论人工操作,还是计算机自动识别输入都十分困难。中文OCR技术将文本通过扫描仪扫描,进行光电转换获得图像信息,然后利用汉字识别技术,将文本文字的图像信息转化为计算机可以直接处理的文字代码形式,完成文本的计算机自动输入。这样就可以极大地减轻数据录入工作的强度、提高数据录入的速度。因此,OCR是一种非常快捷省力的文字输入方式,也是被人们广泛采用的输人方式。从信息处理的角度讲,OCR技术是将传统文献上的文字信息转换为数字化电子文本的技术,对实现档案文本数字化具有重要意义。

 1.创建档案目录数据库

这是一项比较基础的档案数字化工作,目前大多数档案馆都在进行这项工作,很多档案馆、室已建成较为完备的目录库。然而,各档案部门的档案条目基本上都是通过手工录入的,既费时又费力,还很容易出错。尤其是一些档案标题很长,又是“印发”又是“转发”,一个题名就占了好几行,要输入老半天。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。而OCR软件为我们提供了一条新的途径、一种新的著录方式,使档案条目通过计算机录入成为可能。

 2.实现真正的全文检索

档案工作中所说的全文检索实际包括两种类型:一种是仅对档案目录数据库进行检索,找到相关条目后再打开相应的档案全文,目前档案馆、室大多采用这种检索方式,且尚有很多档案没有电子全文;另一种是真正的全文检索,即直接对档案全文库进行检索,而且是对档案全文进行逐字检索。很明显,后一种检索方式的查全率比前者要高出很多,使用户能从浩如烟海的档案馆、室藏中找到更多所需信息,更深入地开发利用档案信息资源。而要实现真正的全文检索,自然离不开OCR技术,因为只有将扫描图像中的文字变成文本格式,才有可能对其中的文字进行逐字检索。

 3.拓宽档案用户利用面

以往的档案用户大多是基于档案的凭证价值而对其加以利用,如办公室查阅某份文件、数据、报表等,这些利用需求对档案的原始性要求较高,很多情况下还是需要纸质档案才能发挥作用。但档案用户的利用面绝不应该仅限于此,如利用档案进行学术研究时,用户就更加注重档案的知识性、信息性,但如果档案是纸质的,要利用其中的内容就必须亲自去档案馆、室,通过印刷或手工摘录所需信息,非常不便,以至于有些用户通过网站或数字图书馆查阅所需信息。

将纸质档案数字化,并采用OCR识别,能够使档案信息资源实现全文检索、网络传输,方便用户异地检索、复制引用,从而深化用户对档案内容的查询与利用,拓宽其利用面,使档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段,使档案多方面地服务于公众。

三、OCR技术在档案数字化管理工作中应用的优缺点

 (一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。        

 1.优点:

(l)方便用户,可减少信息利用过程中重复劳动;

(2)不给档案人员增加建库的工作负担;

(3)节省建库所需的经费开支。

 2.缺点:

(l)不能为全文检索提供数据,实现深层次开发档案信息资源的目的;(2)存在对同一档案内容重复进行扫描和汉字识别的可能性。

 (二)档案部门通过扫描、保存图像并提供利用服务的优缺点

 1.优点有两方面:

(l)具有提供原件和提高信息,利用效率双重优势;

(2)档案人员不承担汉字识别后生成的文本数据的维护工作。

 2.缺点有两方面:

(l)同第一种利用方式的缺点;

(2)汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2—3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储方式仅用来满足用户利用的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B4纸文件约500字,以300dpi进行扫描,识别率为l00%;以150dpi进行扫描,识别率为99. 4%(误识3字)。这对于一般用户而言是无所谓的。

 (三)建立文本数据库的优缺点

 1. 建立文本数据库优点:

(l)节省存储空间和存储成本。仍以一页B4纸约500字档案数字化过程中OCR技术的应用为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。

(2)为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。

 2. 建立文本数据库缺点:

(l)建立文本数据库的工作量较大;

(2)不能满足用户阅读档案原件的需求;

(3)由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。

 综上所述,OCR在纸质档案数字化过程中有其独特的应用,如何将该技术合理运用于档案管理最需要的地方,是值得我们考虑的问题。只有将OCR技术运用得恰到好处,才不至于浪费人力物力,才能使档案信息资源的利用价值达到最大化,更好地服务于利用者。