关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4255人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊朗就新的最高领袖人选作出最终决定

新华社 浏览 2474

与特朗普会晤前 泽连斯基亮明“红线”

上观新闻 浏览 3663

好心载同事却出车祸遭索赔 法院:司机承担60%赔偿责任

极目新闻 浏览 9588

入职要姓“鼠”?三只松鼠工作人员回应

第一财经资讯 浏览 3964

郑丽文喊出新口号 提醒2300万岛民:赖清德想跑就能跑

博览历史 浏览 17000

独立研究者破解扩散模型的最佳预测目标之谜

科技行者 浏览 3133

双节假日即将拉开序幕:酒店民宿预订率均超去年,第一批拼假游客已抵达酒店

澎湃新闻 浏览 4847

黄慧颐自曝锤保剑锋内情!举报账号投资被撤,一条活路都没给她留

萌神木木 浏览 3211

大搞权钱交易和家族式腐败 湖北省委原书记蒋超良被诉

扬子晚报 浏览 109917

宏碁正式推出Swift 16 AI旗舰轻薄本,至高酷睿Ultra X9 388H

IT之家 浏览 3466

张勇又回来了

中国企业家杂志 浏览 3403

你恐慌我贪婪!约500亿资金借道ETF蜂拥进场,主力机构正重金下注这些板块(附名单)

每经牛眼 浏览 4482

aespa治好了我的黑眼圈焦虑

时尚COSMO 浏览 373

梁衍波当选青农商行董事长

21金融圈 浏览 3242

日本知名女星结婚:酷似高圆圆 曾和林志玲老公交往

新民周刊 浏览 7741

蔚来ET9百万纪念限量版上市 售价81.8万元

车质网 浏览 2751

卢拉:不希望美国对委发动“地面入侵”

参考消息 浏览 4033

俄称打击乌军多处目标 乌称击退俄进攻

国际在线 浏览 4263

大S去世细节曝光 泡温泉致病情恶化

素素娱乐 浏览 3139

德塞利:阿隆索想在切尔西成功,须精简阵容

懂球帝 浏览 389

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 3214
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1