AI破译古希腊文字,超越人类水平
2019-11-07 18:06:06AI云资讯1079
AI又学会了一项新技能——破译残缺的古希腊金石文字,在这项任务上,AI甚至超越了人类水准。

近日,来自哈佛和DeepMind的Yannis Assael以及他的同事发表了他们的最新研究成果。他们训练了出了一种名为Pythia的神经网络,可以阅读年代久远的金石,并由此推测缺失部分的文字。
该研究的代码也已经被公开。Github链接如下:https://github.com/sommerschield/ancient-text-restoration
金石,也就是雕刻在耐用器具,如石器、陶瓷或金属的表面上的文字,是古代历史的主要来源之一。
这些文字通常是由古代的个人、团体或者机构所书写的,它为人们对古代文明的思想、社会和历史的研究提供了第一手资料。
目前人类已知的古代金石数以千计,而且每年还会新发现几十种。不幸的是,长年的侵蚀和破坏造成了不少文字的缺损。依据剩余部分和其余相似文字推理出残缺部分的铭文至今仍是个难题。
复原文本是一项复杂而耗时的任务。铭文学家依靠访问大量的信息来找到缺损文本和上下文的“相似点”(类似于寻找文档中的重复表达),而这些信息资料主要存在于研究人员的个人记忆库以及执行“字符串匹配”搜索的数字语料库中。然而,搜索查询中的细微差异就可能会排除或混淆相关结果,使得构建一个“待复原字符”的真实概率分布十分困难。
Deeepmind发表的Pythia模型是第一个打破了当前铭文复原方法局限的AI系统。
这个被称为Pythia的AI从包含至少300万个文字的35,000块碎片中学习识别模式。这种识别模式包括了不同词语出现的语境、语法以及铭文的形状和布局。
针对一个特定的信息缺失字符,Pythia提供20个用于填充缺失的建议,有了这些建议人们可以就根据自己的判断和学科知识选择最佳匹配项。“这个AI就是用来帮助人类专家的”,Assael如是说。
为了测试这一系统,开发团队对Pythia隐藏了一个九个字符组成的希腊人名。Pythia成功猜出了名字。

在另一项测试中,AI试图填补2949份受损铭文的空缺,而与之相对的是,人类专家所犯的错误比AI多出了30%。并且就效率而言,人类专家花了2个小时才看完50个铭文,而Pythia只用了几秒钟就猜出了全部。

来自牛津大学的团队成员之一Thea Sommerschield说,这显示了AI辅助复原的巨大潜力,而且这一方法可以告诉我们古代世界宗教、社会和经济生活的几乎每一个方面,简直不要太有用。
剑桥大学的Philippa Steele也认同Pythia的辅助作用,尽管当下人类仍然需要用肉眼拼凑碎片,并在使用AI之前先人工解码一部分。
她随后补充道:“在我看来,当一段长文本中只缺失了一小块或者某个新发现的碎片有很多相似副本时,AI识别的正确率最高”。
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









