解决方案
汉王OCR政府办公电子政务信息采集系统方案
发布时间:2016-06-29 16:52:08 点击次数:0
票据/表格/单证识别——“汉王OCR SDK”在政府办公领域中的应用
随着社会信息化步伐的不断加快,人们对信息快捷、有序的要求达到前所未有的渴望。尤其是Internet/Intranet技术的迅猛发展,为信息的交流和 共享、团队的协同运作提供了技术上的保证,带来了全新的信息交流及应用方式,我国电子政务的建设也进入了崭新的阶段。随着各行业信息化程度的提高,办公自 动化(OA)、企业资源管理在政府机关、企事业单位的应用越来越普及。近几年来无论是国家机关、事业单位还是各大中型企业都投入了大量的资金进行网络硬件 的基础建设。但即便很多单位已经建立了办公自动化系统,却由于OA系统中没有资源或者OA系统中的资料残缺不全,致使领导无法依据完整的资料做出决定。许 多企业还存在着一边是耗资巨大的OA系统因资料残缺得不到充分利用,另一边是秘书手持原始文件于各部门之间奔走的怪现象。而随着“汉王OCR技术”在办公 自动化系统中的深入应用,它已经为国家机关、企事业单位真正实现无纸化办公提供了坚实的基础。
办公自动化的基础是对管理的理解和对信息的积累,技术只是办公自动化的手段。只有对管理及管理业务有着深刻的理解,才会使办公自动化有用武之地,只有将办公过程中生成的信息进行有序化积累、沉淀,办公自动化才能发挥作用。
汉王OCR技术”在办公自动化系统中的应用,可以实现各式文档的自动化录入、存储、管理,不但彻底解决了网上资源匮乏及残缺的问题,同时使无纸化办公成为可能。
汉王OCR技术”的应用使办公自动化系统中的资源完整、丰富起来,使领导可以依据完整的资料做出决定,让秘书从繁琐的录入工作中解放出来,真正实现了在局域网或广域网中快速传递电子文档。
一、OA系统用户需求:
信息积累是办公自动化得以真正实现的基础。所谓办公,实际上就是文件的制作、修改、传递、签定、保存、销毁、存档的过程。传统的办公模式主要以纸介质为主, 在信息革命的浪潮中,显然已经远远不能满足高效率、快节奏的现代工作和生活的需要。如何实现信息处理的自动化和办公的无纸化逐步得到了人们的重视。
传统的办公模式为我们留下了数以千万计的纸质资料,如何将这些纸介质的信息快速转化为计算机可读取的数字信息,录入方式显得尤为重要。OA系统用户对于信息化建设中纸质文档录入部分要达到的总体目标有以下方面:
1) 实现各式文档的自动化录入、存储、管理。
2) 实现资源的真正充分共享。
3) 消除和避免文件流转的“死角”,使信息在纵向、横向上得以灵活运转。
4) 为领导提供充分的,完整的资料,为领导做出的决定提供依据。
5) 提高工作效率,降低成本,避免重复投资。
6) 简单易用,尽量结合传统办公模式。
二、“汉王OCR技术”在政府办公/电子政务系统中的应用:
信息时代人们普遍使用计算机来提高个人工作效率。提出“办公自动化”的概念已有多年,但成效并不明显,人们还是停留在单机字处理和表格处理的所谓办公自动化 的初级阶段。如何提高一起协同工作的人们的整体工作效率,利用网络通讯基础及先进的网络应用平台,建设一个安全、可靠、开放、高效的信息网络和办公自动 化、信息管理电子化系统是关键。系统为管理部门提供现代化的日常办公条件及丰富的综合信息服务,实现档案管理自动化和办公事务处理自动化,以提高办公效率 和管理水平,实现企业各部门日常业务工作的规范化、电子化、标准化,增强档案部门文书档案、人事档案、科技档案、 财务档案等档案的可管理性,实现信息的 在线查询、借阅,最终实现'无纸'办公。
OA系统集成商将“汉王标准印刷体OCR SDK开发工具包”集成于其所开发的办公自动化系统之中,通过将OCR技术与扫描仪的有机集成,有效解决电子政务信息化、企业信息化等相关领域信息录入的瓶颈问题。
以下是“汉王OCR技术” 在政府办公/电子政务系统中的应用流程图:
资料整理:
为了便于扫描和以后的查询、检索而进行的资料分类、拆装、命名、编号等。
扫描:
扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。
图像处理:
为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音,如:麻点、下划线等,图像质量控制程序自动监测图像处理质量。
版面分析:
能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
识别:
把文字图像转化为计算机文字内码,可以识别印刷体中文(包括简体字和繁体字) 、表格、中英文混排, 识别出来的文字内码可以是GB码、BIG5码、GBK码。识别过程在后台运行。
纵向校对:
具有很强的查错纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
横向校对:
这是传统的人工校对方法,操作员直接对比识别结果和原图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。
版面还原:
将识别并修改好的文本还原成和原文稿版面的布局一样、可供网上阅读和查询检索的RTF、PDF、HTML等格式的数字化文档。
数据入库:
版面还原数字文档的保存。
OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理最终形成。
一般纸质文档的录入功能:
所支持的文档版式为国内领先,支持复杂版面的划分识别,图例如下:
公文(红头文件)的录入功能:
可以准确识别公文的题头、正文、公章等区域,并将识别结果按原版面精确还原。图例如下:
表格的录入功能:
汉王OCR表格识别技术具有强大的识别功能,同时可以提供表格数据之间的逻辑和算术运算关系,并针对表格形式设计了独特的处理功能,能够满足各种复杂表格的识别要求。并且支持数据入库前的修改,确保最终入库数据符合要求。
以上所有录入工作的实现都完全受到整套电子政务系统的管理。通过对各级部门、人员的权限设置,可以限定各级人员对资源的操作、使用、管理等的权利。
三、“汉王标准印刷体OCR SDK开发工具包”识别后生成结果与原图对照:
前面在“汉王标准印刷体OCR SDK开发工具包”的功能介绍中提到:采用“汉王标准印刷体OCR SDK开发工具包”可以实现对指定区域中的文字信息进行 识别,在识别的过程中获取识别文字信息(包含字符在图像中的区域、字体、可信度和候选字),识别结果可保存成TXT、 RTF、 PDF等格式文本文件, 其中RTF、PDF格式支持忠于原版面的版面还原。以下是利用汉王OCR技术进行识别的样张影像及识别结果与原图像的对照比较说明。
RTF格式还原结果与原图的对照:
PDF格式还原结果与原图的对照:
公文PDF格式还原结果与原图的对照:
上一篇 :汉王OCR增值税发票自动录入系统方案
下一篇 :汉王“易识”全能图文识别系统方案