关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1652人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿维塔上市、深蓝融资 长安两大自主板块剧变

道哥说车 浏览 2175

加沙停火协议文件在埃及签署

鲁中晨报 浏览 2856

土拍市场延续“缩量提质”百强房企今年前两月拿地超950亿元

商业观察杂志社 浏览 898

皇马+赫伊森仍未正式道歉!若不会道歉,就去学学梅西巴萨切尔西

念洲 浏览 965

看大疆做全景相机,不要只看两份报告

连线Insight 浏览 2433

鸿蒙智行尊界S800“时代旗舰”轿车第1万台下线

IT之家 浏览 1968

山东99-75战胜宁波 球员评价:3人优秀,5人及格,2人低迷

篮球资讯达人 浏览 1510

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 2177

中国趁低价狂买石油,什么信号?

米筐投资 浏览 1892

晚点独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

晚点LatePost 浏览 1702

产品力全面提升 问界M7新老款车型对比

车质网 浏览 2631

新基金业绩大分化

国际金融报 浏览 2620

保时捷纯电卡宴即将首发,PPE平台打造

车评网 浏览 2017

Dockcase Selfix背屏保护壳亮相,适配iPhone 17 Pro系列

IT之家 浏览 2052

张雨绮爆雷丢工作!省媒确认她不会上春晚

FancyMusic 浏览 1483

南部战区:中方参演部队已从军港出征

政知新媒体 浏览 2800

卡塔尔:加沙可能陷入“无战无和”局面

国际在线 浏览 2578

马杜罗不认罪称"被绑架""仍是总统" 外交部回应

环球网资讯 浏览 7967

梁小龙死因被爆!去世前一天还在练咏春

阿坹武器装备科普 浏览 1617

具身智能老炮再获数亿融资,移动多臂机器人已批量工业落地|36氪首发

36氪 浏览 2001

2025年度综艺榜单:在“苟住”与“破局”之间

仙女事件簿 浏览 1880
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1