关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4038人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭载鸿蒙座舱 新款天籁将于广州车展上市

车质网 浏览 3889

杨幂刘亦菲后同桌零互动,深扒两人闹僵原因

萌神木木 浏览 3411

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 3655

吉利大战欣旺达:江湖不是打打杀杀,是人情世故

诗与星空 浏览 3315

巴列卡诺2-1马略卡,帕拉松点射、德弗鲁托斯破门

懂球帝 浏览 3083

轴距加长 广汽丰田雷凌L上市售12.98万起

网易汽车 浏览 3372

记者:拓王之战转播源取自现场大屏,所以直播视角混乱+回放过多

懂球帝 浏览 4233

欧盟官员:"特普会"是对欧盟外交地位的公开羞辱

澎湃新闻 浏览 9383

特朗普:伊朗知道该做什么 也知道不该做什么

齐鲁壹点 浏览 15234

北京拿下“五万亿之城”,为何还成了AI之城?

BT财经 浏览 2574

票房从13.65亿跌到1730万,我五味杂陈:这块金字招牌算是砸了

靠谱电影君 浏览 4068

Intel大小核根本停不下来!甚至要做“统一核心”

快科技 浏览 2491

AI时代,寻找超级创业者!徐汇区发布政策扶持一个人赛过一群人的“大牛”

上观新闻 浏览 2663

百年老字号的资本挑战:携创收单品安宫牛黄丸,同仁堂医养四冲港股|港E声

时代周报 浏览 3057

1万亿订单再加3500-5000亿美元!OpenAI“停不下来”,“当你欠每家数千亿美元,钱的问题自己会解决”?

华尔街见闻官方 浏览 4418

闪电快讯|东风奕派eπ007+正式上市 限时焕新价13.99万元起

电厂 浏览 4080

净利润暴跌7912%!天域生物亏麻了

包不同 浏览 3758

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

天天汽车 浏览 2974

国乒男团3-0复仇韩国晋级四强,梁靖崑3-0横扫安宰贤

懂球帝 浏览 923

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 4145

齐溪高龄追生儿子 再婚王传君生俩女儿

萌神木木 浏览 4379
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1