新闻简讯

2024
07-07

“数字甲骨共创中心”正式发布全球最大甲骨文多模态数据集

作者:来源: 编辑:刘晓魁浏览:

考考你:认识这三个字吗?

  “星率西”,意思是“星星都往西边走”。其实只这是半句话,前半句是——“异于东”。

“异于东,星率西”。三千多年前,一位贞人(殷商官吏名,从事甲古文书写作)看到了一场由东向西的“流星雨”,并将此“异象”刻在了一片甲骨上。

古人不理解宇宙,我们也很难“读懂”古人。

当前全球共发现4500个甲骨文字,其中超过3000个仍是“未释字”。由于甲骨散落各地、形态不佳、文字本义遗失等原因,新字考释短则数月,长则数年。

7月5日下午,“数字甲骨共创中心”正式发布全球最大的甲骨文多模态数据集,共包含一万片甲骨的拓片、摹本,甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法,加速甲骨文研究智能化进程,让更多遥远的声音被今人“听见”。

数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、厦门大学、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、郑州大学汉字文明研究中心等单位共同发起,并获得中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等全球高校和研究机构的专业支持。

这套数据集背后,由安阳师范学院甲骨文信息处理教育部重点实验室腾讯优图实验室、腾讯SSV数字文化实验室、厦门大学联合开发的AI模型技术也“出了大力”:

//甲骨字检测模型:标注准确率超90%

要把甲骨文字从甲骨搬到线上,首先要找到它们的位置,这个过程就是“检测框标注”。刚开始时,AI也是个新手,需要从头学习。为此,研究员们精心准备了“教材”,也就是在上万张甲骨拓片上精准标注出每一个文字的位置。研究员会让模型学习文字真实位置相对预设锚点的误差,确保AI能“触类旁通”,即同一个文字在不同甲骨中位置不同时,也能被准确“标注”。

  经过“严格培训”,AI成长为了一位专业“标注员”,准确率和召回率均超过90%。

//摹本生成模型:摹本-拓片逐像素对齐

找到了文字的位置,还要把它们从甲骨拓片上“抠下来”,从而生成更加干净的“摹本”。这一阶段的教材,在“拓片”之外还加入了手工临摹的“摹本”。训练就像解题,模型不停进行正推(拓片生成摹本)和倒推(摹本生成拓片),以确保输出正确结果。但这还不够,研究员还会将模型输出结果与标准答案(专家摹本)比照,并手把手教模型改正错误(精调模型)。出师后,AI不仅能自动去除“噪声”,还能让摹本与拓片实现“逐像素对齐”。

//字形匹配模型:自动匹配相近字

  茴香的茴字有几种写法?放到甲骨文中,这个问题会更难回答。在学习了近5万个相似的甲骨文字形后,字形匹配模型已经变成了“识字达人“。输入某一个字形,AI会在“甲骨文字库”中自动搜多和比对,并推荐最近似的字形以及关联拓片和摹本,为甲骨文研究和考释提供参考。我们与腾讯等单位还开发了最新的“甲骨校重模型”。

  它就像一个“明察秋毫的侦探”,可以在大量拓片和摹本中实现“摹本去重”和“拓片探源”,节省甲骨资料整理工作量,帮助专家找到失传甲骨最清晰的拓片。



关闭