关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者1644人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

40岁的他,是世界徒手攀岩第一人,也是风险管理大师|中企荐读

中国企业家杂志 浏览 1437

稳定输出,亚历山大22中11砍35分7板6助,三分9中3&11罚10中

懂球帝 浏览 2414

美欲推动加沙停火计划第二阶段 专家:既想占好处又不愿担责

环球网资讯 浏览 2752

《双轨》空降逻辑混乱,赛车泰拳伪骨科叠加,虞书欣演技难撑人设

不八卦会死星人 浏览 2017

遭老板性侵女高管怒怼网友:开价2000万私了是戏谑

极目新闻 浏览 36088

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 3456

马丁·厄德高:阿森纳英超近失球经历是“动力”

绿茵情报局 浏览 1526

抗日名将孙立人次子已正式向大陆申请 将父亲迁葬故里

环球时报新闻 浏览 14609

贵州茅台多款产品出厂价降价,最高下调1990元,销售端也有降价

红星资本局 浏览 1717

中国科技股深夜爆发,腾讯飙升9%,首批“政务龙虾”已上线

21世纪经济报道 浏览 688

Perplexity Comet浏览器iOS版发布,AI驱动超厉害!

IT之家 浏览 696

这几件衣服太火了,谁穿谁好看

LinkFashion 浏览 2338

上海海港三场亚冠比赛仅拿1分,进1球丢6球

懂球帝 浏览 2715

首艘、首颗、首飞!连续实现重大突破 中国制造硬核实力再出圈

环球网资讯 浏览 2624

跟队:萨尔可代表切尔西出战英联杯,但今晚不太可能出场

懂球帝 浏览 1423

图片报:巴黎有意科隆19岁边锋赛义德-马拉,已与球员方面接触

懂球帝 浏览 2613

小鹏第二代VLA本月推送,2026款小鹏X9纯电版上市

定焦One 浏览 947

CBA再无全胜球队!广东31分惨败北京,最新积分榜:卫冕冠军登顶

侃球熊弟 浏览 1891

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

新智元 浏览 2275

清华大学等联手打造智能分析系统,让卫星图像自动识别准确率飙升

科技行者 浏览 1759

特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

IT之家 浏览 2469
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1