关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者699人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 781

49 岁马伊琍公布喜讯,终于等到这一天

动物奇奇怪怪 浏览 701

纽卡赛季前三个英超客场均0-0战平,为英超历史首次出现

直播吧 浏览 1520

草根出身的“苦命女星”,41岁怀孕,落子无悔却人人替她冤屈

娱乐白名单 浏览 12813

车企曾说弃用,激光雷达为什么却在年底迎来爆发?

电厂 浏览 12942

W16的绝唱,第500台布加迪Chiron L’Ultime下线

CLauto酷乐汽车 浏览 10905

中国防长"香会"发言现场满座 连过道都站满了听众

环球网资讯 浏览 17059

郝蕾风波升级!被扒曾参演《狂野时代》闹掰,辛芷蕾发声打脸她

萌神木木 浏览 708

负债亏损盈利:三家央企新能源谁更胜一筹?

汽车公社 浏览 215

年底是购车黄金期吗?看懂购置税博弈再下订不迟!

百姓评车 浏览 835

美媒独家爆料:“北溪”管道爆炸调查人员面临来自波兰政府的阻力

环球网资讯 浏览 12641

信贷断崖式加剧紧缩!美国货币供应量连降八个月

华尔街见闻官方 浏览 14364

郑丽文就职演说让马英九流泪 台媒:他看见蓝营的希望

海峡导报社 浏览 6659

科沃斯“最贵”的高管,又要套现3000万?

蓝鲸新闻 浏览 1005

OpenAI警告:版权打击可能摧毁ChatGPT

智通财经 浏览 12700

特朗普:内塔尼亚胡执政前景“存在不确定性”

环球网资讯 浏览 1049

千亿巨头奖励员工21枚黄金键帽 空格键重35克价值近4万

每日经济新闻 浏览 6545

66岁港星与太太秀恩爱 被指吃软饭遭太太出手维护

TVB剧评社 浏览 19243

亮出“小红卡”加入本地生活争夺赛,小红书不硬刚

钛媒体APP 浏览 1451

沃尔宣布哈登将留守火箭,但后者至今仍未归队

趣看热点 浏览 25511

萨哈:桑乔是曼联最失败的引援之一,他觉得自己凌驾于教练之上

直播吧 浏览 12585
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1