关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者4393人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

猛龙7人上双四杀老鹰:巴恩斯18+8+10 杰伦13+14+7+6失误

醉卧浮生 浏览 3669

300多个APP,想让我和AI谈感情

豹变 浏览 4570

全球港口博弈拉警报?李嘉诚亮终极底牌了

大猫财经Pro 浏览 3310

晕了晕了!机构大动作调仓,55只行业主题ETF被疯狂扫货,而热门的半导体竟被悄然抛售

每经牛眼 浏览 4218

夏天别总穿T恤,这些粉色裙子也不妨试一试,温柔高级又舒适

静儿时尚达人 浏览 668

做企业,是一场反人性的修炼

创业家 浏览 4441

女孩性侵的案子你都敢盖?!

电影最TOP 浏览 3936

赛更达冲乙 朱骏开出400万奖金

体坛周报 浏览 4692

女游客坠亡的秋千项目位于川东第一高瀑 当地曾发提醒

南方都市报 浏览 15978

为单一球队效力17年,库里将解锁成就成为联盟历史第七人

懂球帝 浏览 4549

俄大使披露:美军控制马杜罗时 没打算让任何人活下来

扬子晚报 浏览 7991

百色"锅底"村庄积水不退 村民:明年不想再种地 白费劲

澎湃新闻 浏览 7426

理想亏6亿终结11季度盈利纪录,李想卖旧手机重回苦日子?

BT财经 浏览 4050

队报:比赛中拉门斯的长传频繁且精准,推动了曼联的战术转型

懂球帝 浏览 4468

高市一度被贴上"安倍女孩"的标签 潜在内阁成员被披露

政知新媒体 浏览 9557

白电三巨头最新财报出炉!小米高管:友商越急,我们越稳!

互联网那些事 浏览 4410

2025奇瑞全球创新大会有什么重磅信息?

My车轱辘 浏览 4701

男女情爱奇招尽出,碎碎念伍迪老爷再上阵!

幕味儿 浏览 4020

Prada如何解构身体与气质?

时尚COSMO 浏览 6686

国投瑞银被起诉背后

时代周报 浏览 3468

接到立案通知后,股民以为完了,5个月后一算账,7000人账面翻倍

壹只灰鸽子 浏览 4094
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1