1. 首页 > 财经资讯

专家:“OCR+NLP”是智慧化管理文献资料的有效解决方案

  近十年来,档案管理工作由原来的纸质档案管理在向电子档案管理进行转化,无疑电子档案的产生彻底改变了原有的档案管理模式。随着大数据技术、人工智能技术的日新月异,推动社会向智慧化、物联化、互联化发展。同时,也对电子档案的应用也提出了智能化管理的时代要求,利用人工智能技术对现有档案系统进行升级改造,对存量档案进行加工,活化档案内容,一方面更便于应用,另一方面,也是新时代档案建设的一大要务。

  档案数据化难题

  正如杭州市档案馆副馆长马列强在《OCR+NLP在档案数据化中的研究与实践》这一项目中所指出的,“我国现存的档案一直在进行持续的电子化扫描工作,大量的纸质档案经扫描后得到图像数据。这一方面为档案的长期保存提供了便利,一方面也为档案的电子化利用提出了新的挑战。”

  马列强认为,档案的电子化应用离不开档案的数据化。相比于档案的电子化,档案的数据化是对档案数据的进一步整理和挖掘。

  可以这样理解,档案电子化后得到的图像数据仍然是一种非结构化数据,不利于查询检索和统计分析。档案数据化是将非结构化的档案图像转化为结构化数据的过程,在这个过程中档案中的核心结构化数据被提取出来,可以为针对档案的全文检索、精准查询、统计分析、关联挖掘等下游任务提供数据支持。

  据介绍,档案数据化的工作可以分为三个层级。第一,是针对档案图像的文字识别,在这个过程中主要采用OCR技术对档案进行文字的识别和提取。第二,是知识抽取,在这个过程中主要是基于NLP(自然语言处理)技术对档案的核心要素进行抽取。第三,是关联挖掘,在这个过程中主要是基于前面两个阶段获得的结构化数据,应用知识图谱和数据挖掘的技术,对数据内在的关联性进行挖掘,形成文档级别和要素级别的普遍关联。

  他指出,目前在我国的档案数据化工作的现状中存在一些问题,主要表现在上述档案数据化工作的第二个和第三个层级,即对档案进行知识抽取的工作进行得很少,对档案进行知识抽取缺乏统一的标准,关于OCR文字识别做为知识抽取的上游环节应该输出怎样的数据格式,缺乏明确的规范和标准。

  解决方案:OCR+NLP

  在该研究中,马列强称,传统的OCR技术的核心是识别图像中的文字,再加上通过NLP技术进行文字块的自然语言语义分析,才能较好地进行完整的知识抽取。

  他还提到,该项目的联合申报单位之一为汉王科技,在深度学习和人工智能领域有较强的技术积累,在OCR和NLP技术领域已有多个成功的相关落地案例,例如中国文史出版社知识图谱项目、中国建设银行云档案项目、上海图书馆现刊自动著录项目、国家图书馆地方志知识抽取项目等、汕头市民国档案数字化项目等。

  无独有偶,在行业实践中,汉王科技也意识到了一个同样地问题——只有OCR是不够的。

  资料显示,2013年,汉王科技将文档电子化的触角延伸至图书馆、档案馆,银行、医院、法院等多个国家级项目。但在这些具体项目的实施中,汉王科技也开始逐渐意识到,文档电子化只是完成了知识、信息应用的一部分。

  “静态的文字是没有生命的。”汉王数字首席数据科学家聂昱告诉记者,电子文档没有对文本进行挖掘、知识之间缺乏关联,要将文档的非结构化数据进行结构化处理,转化为技术术语,就要用到NLP自然语言处理技术。

  应用创新与未来趋势

  一方面,得益于当时的行业背景,2015年,深度学习算法的快速进展,大规模社交文本数据以及语料数据的不断积累,NLP技术有了飞跃式的发展。另一方面,汉王在抢先布局NLP领域,2016年,汉王科技与武汉大学的自然语言处理团队联合进行文档大数据化研发工作,力图突破NLP技术,建立起自己的文档大数据库体系。

  同时,汉王科技还积极推进NLP行业应用并进行创新还研发,比如,其新一代人工智能档案大数据处理平台基于全卷积神经网络(FCN)提取特征序列,实现全局特征与局部特征联合,可以较好地解决版式复杂、噪声严重的档案图像的文字定位与检测。

  据介绍,该平台采用长短时循环神经网络(LSTM)作为序列学习,嵌入时序特征,有效建模序列内部关系,解决版式复杂、噪声严重的档案图像的单字符切分与识别问题。基于以上技术构建的OCR,全文识别引擎对于任意扫描的档案图像都能够自动定位文字区域,并自动辨认文字类型(手写体或印刷体),然后准确识别文字,输出识别结果,能够在带背景噪声的情况下定位文字区域,综合大量样图实测,平均识别准确率可超过95%。汉王科技OCR技术同时在少民族语言中广泛应用,尤其在满文、藏文等识别方面最为突出,平均识别准确率在98%以上。

  汉王相关负责人指出,从2016年开始NLP的技术积累,到各子公司的行业应用,汉王科技在NLP领域,形成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好的联动效应。

  最后,马列强总结道:“从国内外的研究和发展趋势来看,目前档案数据化的工作大多集中在对档案图像进行OCR识别,目前的OCR识别以准确识别文字为主要目标,对于后续的知识抽取所需要的版面相关信息往往未进行识别和保存。但基于档案相关数据的特点,OCR识别从文字识别扩展到文字块区域识别、表格识别、连线识别、字体字号识别是未来必然的趋势,只有这样才能与下游的信息或知识抽取处理进行无缝连接。所以,未来的档案数据化必将是从基于纯文本的信息抽取技术向结合文本语义信息与版面信息进行整体信息抽取技术发展是必然趋势。”

  注:OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。NLP(Natural Language Processing,自然语言处理) 是研究人与计算机交互的语言问题的一门学科。

(文章来源:环球网)

本文来源于网友自行发布,不代表本站立场,转载联系作者并注明出处