「ai」AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士
精选评测好文
原文标题:AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士
高数考不好,不知道是多少人的噩梦。
如果说你高数考得还不如 AI 好,是不是就更难以接受了?
没错,来自 OpenAI 的 Codex 已经在 MIT 的 7 门高数课程题目中正确率达到81.1%,妥妥的MIT 本科生水平。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
这件事最近还登上了微博热搜。
△" 仅 " 得 81 分,对 AI 的期待也太高了吧
现在,谷歌那边又传来了最新大消息:
不止数学,我们的 AI 甚至在整个理工科上,都已经拿到最高分啦!
看来在培养 "AI 做题家 " 这件事上,科技巨头们已经卷出了新高度。
谷歌这个最新 AI 做题家,参加了四门考试。
数学竞赛考试 MATH,以往只有三届 IMO 金牌得主才拿过 90 分,普通的计算机博士甚至只能拿到 40 分左右。
至于别的 AI 做题家们,以前最好成绩只有 6.9 分……
但这一次,谷歌新 AI 却刷到了 50 分,比计算机博士还高。
综合考试 MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。
这一次,谷歌 AI" 满血版 ",也都拿到了做题家中的最高分,直接将分数拉高了20 分左右。
小学数学题GSM8k,直接将成绩拉升到 78 分,相比之下 GPT-3 还没及格(仅 55 分)。
就连MIT 本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新 AI 也能在 200 多道题中,答出将近三分之一。
最重要的是,与 OpenAI 凭借 " 编程技巧 " 取得数学高分的方法不同,谷歌 AI 这一次,走的可是 " 像人一样思考 " 的路子——
它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。
值得一提的是,论文一作 Lewkowycz 还分享了一个论文中没写到的亮点:
我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。
看到这里,有的家长已经坐不住了。
如果告诉我女儿这件事,我怕她用 AI 做作业。但如果不告诉她,就没有让她对未来做好准备!
在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。
那么,这是怎么做到的?
AI 狂读 arXiv 上 200 万篇论文
新模型 Minerva,基于 Pathway 架构下的通用语言模型 PaLM 改造而来。
分别在 80 亿、600 亿和 5400 亿参数 PaLM 模型的基础上做进一步训练。
Minerva 做题与 Codex 的思路完全不同。
Codex 的方法是把每道数学题改写成编程题,再靠写代码来解决。
而 Minerva 则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。
在 PaLM 的基础上继续训练,新增的数据集有三部分:
主要有 arXiv 上收集的 200 万篇学术论文,60GB 带 LaTeX 公式的网页,以及一小部分在 PaLM 训练阶段就用到过的文本。
通常的 NLP 数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了 Emc2。
但谷歌这次把公式都保留,和纯文本一样走一遍 Transformer 的训练程序,让 AI 像理解语言一样去理解符号。
与之前的语言模型相比,这是 Minerva 在数理问题上表现更好的原因之一。
但与专门做数学题的 AI 相比,Minerva 的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。
缺点,是可能出现 AI 用错误的步骤得到正确答案的情况。
优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。
到了 AI 的推理阶段,Minerva 还结合了多个最近谷歌开发的新技术。
先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。
具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI 在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。
再有是谷歌和,让 AI 把分步计算的中间结果临时存储起来。
最后还有Majority Voting多数表决方法,也是今年 3 月才发表的。
让 AI 多次回答同一个题目,选择答案中出现频率最高的。
所有这些技巧全用上以后,5400 亿参数的 Minerva 在各种测试集中达到 SOTA。
甚至80 亿参数版的 Minerva,在竞赛级数学题和 MIT 公开课问题中,也能达到 GPT-3 最新更新的 davinci-002 版本水平。
说了这么多,Minerva 具体都能做出哪些题目?
对此谷歌也开放出了样例集,一起来看一下。
数理化生全能,连机器学习都会
数学上,Minerva 可以像人类一样按步骤计算数值,而不是直接暴力求解。
对于应用题,可以自己列出方程式并做简化。
甚至还可以推导证明。
物理上,Minerva 可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。
生物和化学上,Minerva 凭借语言理解能力也可以做各种选择题。
以下哪种点突变形式对 DNA 序列形成的蛋白质没有负面影响?
以下哪种是放射性元素?
以及天文学:为什么地球拥有很强的磁场?
在机器学习方面,它通过解释 " 分布外样本检测 " 的具体含义,从而正确了给出这个名词的另一种说法。
……
不过,Minerva 有时也会犯一些低级错误,比如把等式两边的√给消了。
除此之外,Minerva 会出现的推理过程错误但结果对的 " 假阳性 " 情况,比如下面这种,有 8% 的可能性。
经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。
其中计算错误可以轻易通过访问外部计算器或 Python 解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。
总的来看,Minerva 的表现让很多人感到惊艳,纷纷在评论区求 API(可惜谷歌目前并没有公开计划)。
有的网友想到,加上前几日,它的准确率或许还可以再提高?
不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带 4 个例子的少样本学习。
还有网友提出,既然它可以做题,那么能不能反过来出题?
事实上用 AI 给大学生出题这件事,MIT 已经联合 OpenAI 在做了。
他们把人类出的题和 AI 出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是 AI 出的。
总之现在的情况,除了搞 AI 的在忙着读这篇论文以外。
学生们盼着有一天能用 AI 做作业。
老师们也盼着有一天能用 AI 出卷子。
论文地址:
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo 地址:
https://minerva-demo.github.io/
相关论文:
Chain of Thought
https://arxiv.org/abs/2201.11903
Scrathpads
https://arxiv.org/abs/2112.00114
Majority Voting
https://arxiv.org/abs/2203.11171
参考链接:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
推荐阅读:洒拖F6吸拖一体机,真正让吸尘、扫地、拖地达成三合一<\a>
其他人还看了
「超声波」苹果新专利曝光:超声波技术!湿手触摸AirPod也能灵敏感应
「芯片」安兔兔6月性能榜OPPOReno8Pro+次旗舰第一
郑重声明:本文“「ai」AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士”,https://nmgjrty.com/shumacp_474324.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「ai」AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士
- 「ai」芯片巨头正在偷偷研发这些新AI技术,不比拍照有意思
- 「nlp」NAACL2022论文奖项公布:谷歌成最大赢家
- 「雷达」最新综述:基于不同数据模态的行为识别
- 「机器人」这两位中国学者,刚刚斩获了机器人顶会RSS最佳论文奖
- 「一加」一加10T手机外观曝光比一加10Pro好看多了
- 「卡拉ok」唱K何必去KTV?在家也能有专业K歌体验——惠威ET1000有源卡拉OK音箱评
- 「芯片」HiFi迷福音,月光宝盒播放器只要379元
- 「hifi」K歌观影一套搞定惠威ET1000有源DSP演艺音箱体验
- 「小米」小米RedmiNote115G手机活动到手价1199元
- 「超声波」苹果新专利曝光:超声波技术!湿手触摸AirPod也能灵敏感应
- 「小米」小米12SUltra充电黑科技动用两种国产芯片
- 「机械师」学生党稳战四年不是梦12代i9高能游戏本仅需6669元
- 「三防手机」5G+三防,三星GalaxyXCover6Pro发布
- 「芯片」安兔兔6月性能榜OPPOReno8Pro+次旗舰第一
- 「闪存」小米12SUltra搭载FBO焕新存储技术纳入闪存标准UFS4.0
最新更新
- 「ai」AI做题家卷疯了!高数考试正确率
- 「ai」芯片巨头正在偷偷研发这些新AI技术
- 「nlp」NAACL2022论文奖项公布:谷歌成最大
- 「雷达」最新综述:基于不同数据模态的
- 「机器人」这两位中国学者,刚刚斩获了
- 「一加」一加10T手机外观曝光比一加10P
- 「卡拉ok」唱K何必去KTV?在家也能有专业
- 「芯片」HiFi迷福音,月光宝盒播放器只要
- 「hifi」K歌观影一套搞定惠威ET1000有源D
- 「小米」小米RedmiNote115G手机活动到手价
- 「超声波」苹果新专利曝光:超声波技术
- 「小米」小米12SUltra充电黑科技动用两种
- 「机械师」学生党稳战四年不是梦12代i
- 「三防手机」5G+三防,三星GalaxyXCover6Pr
- 「芯片」安兔兔6月性能榜OPPOReno8Pro+次旗
推荐阅读
- 「ai」芯片巨头正在偷偷研发这些新AI技术,不比拍照有意思
- 「nlp」NAACL2022论文奖项公布:谷歌成最大赢家
- 「雷达」最新综述:基于不同数据模态的行为识别
- 「机器人」这两位中国学者,刚刚斩获了机器人顶会RSS最佳论文奖
- 「一加」一加10T手机外观曝光比一加10Pro好看多了
- 「卡拉ok」唱K何必去KTV?在家也能有专业K歌体验——惠威ET1000有源卡拉OK音箱评
- 「芯片」HiFi迷福音,月光宝盒播放器只要379元
- 「hifi」K歌观影一套搞定惠威ET1000有源DSP演艺音箱体验
- 「小米」小米RedmiNote115G手机活动到手价1199元
- 「超声波」苹果新专利曝光:超声波技术!湿手触摸AirPod也能灵敏感应
- 「小米」小米12SUltra充电黑科技动用两种国产芯片
- 「机械师」学生党稳战四年不是梦12代i9高能游戏本仅需6669元
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano