长期以来,古籍整理靠人力完成,高度依赖专家经验,成本高、效率低,进展缓慢。古籍材料年代久远,所包含的文字量庞大、异体字众多、字形字体多变、版式多样、页面模糊,缺乏充足的训练数据。光学字符识别OCR(Optical Character Recognition)是对图片中所包含的文字图像自动识别并输出为字符编码的计算机技术,包括:版面分析、图像分割、文本检测、文字识别等技术过程。OCR是古籍数字化的核心技术,是实现古籍数据库检索、文本挖掘、知识发现以及网络传播的前提和基础。近年来,深度学习技术在这一领域的应用显著提升了古籍OCR的准确率,降低了应用门槛,极大地推动了古籍数字化的进程。
2022年5月21日下午,由北京大学数字人文研究中心、中国图象图形学学会、中国自动化学会主办,中国古籍保护协会古籍智能专委会、中国图象图形学学会文档图像分析与识别专委会等联合主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办的“智能时代的古籍OCR技术”讲座在线上举行。
此次讲座的主讲人为国内古籍OCR领域的顶级专家,其中包括实验室主任刘永革,中国科学院自动化研究所副所长刘成林,华南理工大学教授金连文,北京书同文公司张驰宜。会议由金连文、王军主持。实验室主任刘永革在讲座中作了题为《甲骨文大数据及相关识别处理》的精彩报告。
刘永革主任报告内容:
甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉,但是甲骨文研究遇到很多难题,在当今信息时代,人工智能技术能不能在甲骨文研究方面发挥作用?报告介绍了实验室在甲骨文大数据及平台建设、甲骨文检测与识别等方面的探索。

刘永革:甲骨文信息处理教育部重点实验室主任,安阳师范学院计算机与信息工程学院院长,教授,硕士生导师。主要研究方向甲骨文信息处理,主持了2项国家自然科学基金面上项目,主持了2项国家社会科学基金重大项目子课题,1项教育部、国家语委甲骨文研究与应用专项。