“数字甲骨共创中心”正式发布全球最大甲骨文多模态数据集

作者：来源：编辑：刘晓魁浏览：

考考你：认识这三个字吗？

“星率西”，意思是“星星都往西边走”。其实只这是半句话，前半句是——“异于东”。

“异于东，星率西”。三千多年前，一位贞人（殷商官吏名，从事甲古文书写作）看到了一场由东向西的“流星雨”，并将此“异象”刻在了一片甲骨上。

古人不理解宇宙，我们也很难“读懂”古人。

当前全球共发现4500个甲骨文字，其中超过3000个仍是“未释字”。由于甲骨散落各地、形态不佳、文字本义遗失等原因，新字考释短则数月，长则数年。

7月5日下午，“数字甲骨共创中心”正式发布全球最大的甲骨文多模态数据集，共包含一万片甲骨的拓片、摹本，甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法，加速甲骨文研究智能化进程，让更多遥远的声音被今人“听见”。

数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、厦门大学、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、郑州大学汉字文明研究中心等单位共同发起，并获得中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等全球高校和研究机构的专业支持。

这套数据集背后，由安阳师范学院甲骨文信息处理教育部重点实验室和腾讯优图实验室、腾讯SSV数字文化实验室、厦门大学联合开发的AI模型技术也“出了大力”：

//甲骨字检测模型：标注准确率超90%

要把甲骨文字从甲骨搬到线上，首先要找到它们的位置，这个过程就是“检测框标注”。刚开始时，AI也是个新手，需要从头学习。为此，研究员们精心准备了“教材”，也就是在上万张甲骨拓片上精准标注出每一个文字的位置。研究员会让模型学习文字真实位置相对预设锚点的误差，确保AI能“触类旁通”，即同一个文字在不同甲骨中位置不同时，也能被准确“标注”。

经过“严格培训”，AI成长为了一位专业“标注员”，准确率和召回率均超过90%。

//摹本生成模型：摹本-拓片逐像素对齐

找到了文字的位置，还要把它们从甲骨拓片上“抠下来”，从而生成更加干净的“摹本”。这一阶段的教材，在“拓片”之外还加入了手工临摹的“摹本”。训练就像解题，模型不停进行正推（拓片生成摹本）和倒推（摹本生成拓片），以确保输出正确结果。但这还不够，研究员还会将模型输出结果与标准答案（专家摹本）比照，并手把手教模型改正错误（精调模型）。出师后，AI不仅能自动去除“噪声”，还能让摹本与拓片实现“逐像素对齐”。

//字形匹配模型：自动匹配相近字

茴香的茴字有几种写法？放到甲骨文中，这个问题会更难回答。在学习了近5万个相似的甲骨文字形后，字形匹配模型已经变成了“识字达人“。输入某一个字形，AI会在“甲骨文字库”中自动搜多和比对，并推荐最近似的字形以及关联拓片和摹本，为甲骨文研究和考释提供参考。我们与腾讯等单位还开发了最新的“甲骨校重模型”。

它就像一个“明察秋毫的侦探”，可以在大量拓片和摹本中实现“摹本去重”和“拓片探源”，节省甲骨资料整理工作量，帮助专家找到失传甲骨最清晰的拓片。

上一条：

海外首站！全球数字甲骨回归计划开启！

下一条：

2024年河南省教育厅“豫鉴河南·遇见你”港澳学生夏令营走进实验室

返回到列表页

【关闭】

新闻简讯

“数字甲骨共创中心”正式发布全球最大甲骨文多模态数据集