AI又对奥数下手 刷题刷出“模考”最好成绩
2022-02-05 09:12:34AI云资讯1049
AI 在最不擅长的数学方面,这次大幅刷新了最好成绩。其中关键角色是 OpenAI 给 Lean 做的一个定理证明器。听起来有点耳熟?没错,就是去年参加国际数学奥林匹克竞赛(IMO)的“非人”选手 Lean~
自从 2013 年微软研究院推出 Lean 以来,就一直尝试让 AI 在数学命题证明这方面取得进展。
而这次也确实得到了回报,OpenAI 新做的这个定理证明器让它学会了解决一部分有难度的高中奥数题,包括美国的数学竞赛 AMC12、AIME 甚至是国际奥数竞赛中的题。
它首先会用语言模型将数学问题转化为另一种形式,列出隐藏的条件和已知信息,然后来推理求证。
虽然在刚开始效果并不明显,只能证明几个命题。但是在不断地搜索新的证明,经过八次迭代之后,在 miniF2F 测试中,成功地把分数从 29.3% 刷到了 41.2%。

我们来看看这 AI 是怎么在奥数题上施展拳脚的。
AI 如何做奥数题
先来看一个简单的问题热热身:
对于所有大于等于 9 的整数 n,证明下图中的式子是一个完全平方数。

按照普通人的思考方式,可以先把式中分子提出一个 n 的阶乘,与分母约去。
然后分子化简为(n+1)2。这在形式上就是一个完全平方数,问题得证。
那 AI 是怎么做的呢?
它首先从文本中提取了条件和已知信息,例如 n 是整数、n 大于等于 9。
接下来,它把需要证明的问题换了一种说法,改为:
存在一个整数 x,使 x2和原式相等。

然后在解题的过程中,完全由模型直接生成了一个数学项“n+1”作为一个解:use n+1。接下来再去验证这个解是否成立。
如果没有语言模型,这是不可能做到的。
这么看来这模型能耐了,还有了一些数学想法,再拿一道国际奥赛的改编题来考考它:
设 a、b、c 是一个三角形的三条边,证明 a2(b+c-a)+b2(c+a-b)+c2(a+b-c)≤3abc。

同样地,AI 还是先把条件都列出来。不过这次还列出了与三角形有关的隐藏条件:
a、b、c 都是大于 0 的实数,并且有任意两边之和大于第三边。

然后模型还自创了一个方法,列出了(b-a)、(c-b)、(c-a),看起来好像不明所以。
但是如果把目标式子展开,你就会发现这三项正是舒尔不等式的几个对称项:

根据舒尔不等式,对所有非负实数 x、y、z 和正数 t,都有:

当 t=1 时,这和奥数题中的形式完全一样,命题得证。
这么看来,AI 这水平着实不简单啊,要构造出这种效果可绝非易事。
对奥数下手的难点
让 AI 来做奥数,确实比学生自己磕高数题难多了。
这第一个难点就是,模型不是从有限的选项中做选择。要是像下围棋那样,格点就那么多,选择空间有限,还好说一点。
但是做奥数,模型要从一组复杂的无限策略中做选择,期间还要生成一些数学中的术语,例如“存在”、“任意”等。
针对这个难点,OpenAI 通过在搜索证明方法时从语言模型中采样来解决。
而第二点就是模型缺乏自我对抗和博弈。做奥数题和双人游戏不同,它不是和另一个玩家比赛,而是要证明一个数学命题。
这样一来在双人游戏上成功的算法就不能迁移过来。
为了解决这个问题,研究人员提供了一套不同难度“教辅资料”,用来辅助描述问题而不需要证明。
当这些辅助的描述难度越来越大时,模型就能解决越来越难的问题。
不过这两个难点,反倒可以成为它的优势。
一方面,因为这类数学命题的证明就是需要推理,需要无限的创造力和洞察力。
另一方面,这种辅助描述式的方法也有助于 AI 自动推理的发展。
说不好,将来深度学习模型还能征服奥数这座高山。
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









