电脑基础 · 2023年3月31日

AI+OCR赋能古彝文数字化—让经典重新跳动

1️⃣ 彝文与古彝文概况

文化是一个民族社会历史发展到一定程度的产物,代表着文明发展的程度,而文字是文化的一种载体,文字的出现是社会进入文明阶段的重要标志之一,其生动记录着一个民族的智慧成果,深刻反映着一个民族的发展历史,集中体现这一个民族的文化。


中国远古时代的彝族,是相当庞大的部落族群,其生息的区域,从西部、西南部往中原地区延伸到东海之滨,以刻划文字和十月太阳历为标志,可追溯达万年历史的古彝人,对世界本源、人类发展史的认识,都达到了极高的程度,中国的文明史时序,由此向前推进了一大步。

AI+OCR赋能古彝文数字化—让经典重新跳动

古彝文字义对照图(网络资料+邵文苑供图)

邵文苑:古彝文数字化项目发起人,上海大学社会学院人类学民俗学研究所讲师

彝文是彝族先民在长期的生产、生活实践中长期孕育、逐步提炼的文化产物,在漫长的历史发展之中薪火相传,生生不息。而古彝文指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。彝文起源于何时,尚未有官方的定论,有学者认为,原始古彝文的创制和出现时间大致可推算为7000—10000年或以上。

以国内外相关考古研究与学术研究成果为参照,以世界古文字珍稀遗产评鉴体系为依据来评价古彝文:

  • 文字生命力:古彝文出现时间大致可推断为七千到一万年或以上,彝文经过漫长的岁月洗礼仍保留着大量的原生性特征;

  • 文字影响力:中国29个省市自治区都发现了古彝文刻划符号,具有极大影响力;

  • 文字文化力:古彝文文献数量较多、体量较大、底蕴深厚、内容丰富、体制完善而成熟;

  • 文字传承力:彝族人口众多,生活地域广袤,有深厚的文化地域,为古彝文的传播提供了广泛而稳定的群众基础。

综上所述,古彝文中蕴藏着彝族数千年灿烂文明成果,是中华民族传统文化的重要组成部分,具有鲜明的民族个性和顽强的生命力,古彝文是彝族、中华民族乃至世界的文化瑰宝,建立古彝文OCR识别模型,可以很好地完成古彝文文献的识别预处理操作,缩短古文典籍研究周期。对古彝文的数字化保护有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护

2️⃣ 古彝文数字化的重难点分析

2.1、古彝文典籍残缺难以识别

彝文的传承一直以手抄的形式为主,由族中的毕摩代代相传,由于战火与自然风蚀的洗礼,很多彝族文献遭到破坏和流失,存在缺失、污渍、笔墨污染、模糊、印章噪声干扰,目前, 从各地收藏单位收集到彝文古籍文献来看,纸质文件存在泛黄变脆,甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀,字迹出现了模糊, 腐蚀等情况,这对古彝文典籍修复、文本检测、文字识别带来极大困难。

AI+OCR赋能古彝文数字化—让经典重新跳动

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

📔传统的文字图像修复和识别📔,专业研究人员是通过语境信息和感知信息进行,即利用图像周围的像素以及综合标准文字中的各个特征要素来完成字符推演,而计算机很难具备人的语境信息,且古彝文没有标准文字库让计算机参照学习。

2.2、缺乏成熟的古彝文训练样本集

建立一个古彝文样本库是古彝文识别成功的关键因素,直接决定识别的效果,文字的认知需要很多的背景知识,这些是人类在一定环境中长期积累形成,很难系统地加以描述和组织,当前对古彝文的研究主要集中在对古彝文文献的整理上,再加上彝文字没有被数字化,也没有预留的Unicode编码区段,缺乏成熟可用的古彝文样本库和语料库,故常规OCR识别方法高度依赖人工,几乎需要专业人员逐字标注,导致古籍数字化无法形成规模效应,总体进程缓慢。

AI+OCR赋能古彝文数字化—让经典重新跳动

毕节市彝文文献翻译研究中心展示汉译书稿(邵文苑供图)

在🎓人才方面🎓,具备古彝文语言专业知识的计算机技术人员极度缺乏,计算机技术相对薄弱的文献语言知识领域的专家与缺乏文献语言专业知识的计算机技术领域专家两者之间不能进行完美的沟通合作,难以突破技术层面以及知识层面的重重难题,更遑论少数民族语料库的建设,这不仅对于文献语言知识领域专家有着更多的要求,对于计算机专业技术领域专家更是充满挑战。

2.3、古彝文字体多变 笔画复杂

古彝文典籍时常出现加字、替字、整句倒置、文字方向不统一等现象,更是给文字定位造成挑战,再加上古彝文从未经过统一,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。比如:

AI+OCR赋能古彝文数字化—让经典重新跳动

表示“种类”的彝文字的四个变体(邵文苑供图)

这样的变体字大量存在,在彝文已经相对规范的汉译本中就有15%的变体字,原稿中就更多了,古彝文每个字的异体写法少则两三个,多则几十种,除此以外,彝文还存在一些汉文所没有的笔画,比如横飘、横回交,有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字:

AI+OCR赋能古彝文数字化—让经典重新跳动

两个形似、但音义完全不同的彝文字(分别为“酒”、“仪礼”,邵文苑供图)

这些笔画相近的字符不仅给OCR识别模型的建立造成困难,而对于参与校注的初学者来说也是一大阻碍。

3️⃣ AI + OCR = 古彝文典籍数字化

3.1、OCR识别——古彝文典籍数字化的核心技术

古彝文典籍数字化可以将古籍内容转换成计算机可处理的数字,以达到存储、检索、传递、再生、利用等目的,并且可以进行内容检索,快速下载打印和复制还原,也可以提供印刷出版或制作电子版图书,通过网络还能实现远程传送、专题展览,打破地域性资源的空间和时间的限制,被最大限度地使用,从而实现“资源共享”。

古彝文典籍数字化的价值并不止步于学术研究,随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机。

光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。古籍数字化尝试由来已久,但古籍文字字类多、字体多样,外加流传过程中出现的各类损坏难度大、成本高。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。

先进的OCR识别技术可以提供很高的并发处理能力,针对大量古籍图像,快速输出结果文件,保证研究进度,在保证古籍识别准确率能够达到较极高的水平的同时,降低后期校对的人工投入,OCR识别核心技术主要由以下几个部分组成:

  1. 🚲图像预处理:主要包括二值化,噪声去除,倾斜较正,古文字常见的载体——龟壳和青铜器的表面都会不同程度地存在弯曲、反光、凹凸不平的情况,古彝文典籍存在缺失、污渍、笔墨污染、模糊等噪声干扰,首先要将拍摄到的图片素材在技术上进行“拉平”等矫正处理,并做好对于阴影、噪点的处理;

  1. 🚗版面分析、字符分割:将文档图片分段落,分行,然后将每行的彝文字符单独提取出来,切分是否准确对于文字特征提取和分类识别将最终影响识别结果;

  1. 🚄特征提取:古彝文字体多变 笔画复杂的问题,导致很多字只有一笔一划的差别,存在许多相似字、变体字,这对描述字符特征提出了更高的要求——系统必须使得两个相似字的类内差距尽可能的小,类间差距尽可能的大。

  1. 🚀字符识别:根据提取的特征识别字符。常用的算法有模板匹配算法、支持向量机、贝叶斯分类算法和人工神经网络。

3.2、四字节编码系统——古彝文典籍数字化的坚实基石

上海大学彝文研究员研制的一种四字节编码系统,理论上可描述四省区所有异体字、变体字之间的细微差异,为每一个彝文字分配一个编码,好像每个人都有独一无二的身份证号那样。在此基础上建立的数据库,能较容易地找出误用字和混用字,而且输出平台保留了原稿与编码的联系,可以方便地定位某位缮写员的书法,为将来开发多样化的字体做准备。

这种四字节的编码,可以描述每个变体和形近字符之间的细微差别,由此建立便于机器学习的数据样本。合合信息技术研发团队吸取上海大学古彝文研究专家及其所在院系深厚的人文社科学术底蕴,以及前期积累的编码工作成果,准确掌握文字研究方面的痛点,细化目标拆解,建立更精准、更符合研究需求的彝文古籍电子数据库。

合合信息携手上海大学推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创。

3.3、合合信息AI智能文字识别技术——古彝文典籍数字化的万能钥匙

合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题,其与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉。

智能文字识别技术主要包含了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理三个核心技术层。就古文的识别而言,通常会涉及到行业存在两大典型难点,一个是图像的优化处理,再者是古文字的识别。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

AI+OCR赋能古彝文数字化—让经典重新跳动
  1. 针对图像质量差的问题,彝文古籍经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍、墨色深浅不一、字符间距和行距大小不一的情况。合合信息采用智能文字识别技术对图像质量进行增强,提升文字识别效率与准确性。

  1. 🌟针对版式多样的问题,汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,积累了大量经验,这为古彝文识别提供了相当可靠的技术支持。

  1. 🏁针对异体众多的问题,未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。合合信息智能文字识别技术采用AI模型深度训练学习深层语言特征,有助于应对文字识别中“理解、认知”层面的难题。

  1. 💫针对手写识别难的问题,古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,合合信息智能引入AI技术构建模型,弥补本项目训练样本不足

4️⃣ 智能文字识别技术——合合信息让经典重新跳动

古文的研究,是合合信息用智能文字识别技术促进中华文化传承、文化保护的社会责任体现,这也对提高技术整体识别率,赋能更广泛的大众应用非常有价值。不止在古彝文,此前合合信息便在甲骨文、金文领域进行研究,并基于“AI+OCR”融合下的智能文字识别技术,在解决古籍版式检测图像处理文字识别难题上取得了亮眼成果。

AI+OCR赋能古彝文数字化—让经典重新跳动

在2022年世界人工智能大会上,合合信息将智能文字识别技术应用到了一篇镌刻在西周青铜鼎面的的钟鼎文(金文)识别上,可谓难度颇高,在没有人工干预的状态下,钟鼎文从内凹状态被拉平,并被转译成简体字,“克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒”等原本连在一起的复杂语句,也经过“AI断句”功能自动处理后被区分开来,方便大众理解。

在钟鼎文的处理过程中,合合信息重点展示了智能文字识别技术的应用,通过以“弯曲矫正”为代表的智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心技术层,向曲面、模糊、阴影、非常规文字影响下的识别难题发起挑战,精准实现复杂场景中的多语言识别。

一些参观者在展区还使用合合信息旗下产品“扫描全能王app”,用“拍图识字”功能一键扫描识别竖排繁体古籍《桃花源记》。面对破损、皱褶的古籍,该功能通过图像文字效果增强,进一步将古籍内容提取出来,赋予更多人清晰、平整的古籍阅读体验。

AI+OCR赋能古彝文数字化—让经典重新跳动

不仅如此,合合信息专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术,还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测、报表OCR识别、切边增强、曲面矫正、阴影处理、印章检测等智能图像处理产品及服务。

合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。