关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013962人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

留几手维护闫学晶翻车!嘲讽短视频用户自卑又敏感,网友呼吁封号

萌神木木 浏览 3173

美教授说大实话:特朗普对委动手背后 石油优先于民主

澎湃新闻 浏览 10628

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 3896

岁月不败美人,50岁她们比20岁更好看

LinkFashion 浏览 3216

今年秋冬,流行“九分”穿法,时髦又显高!

LinkFashion 浏览 3430

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro 浏览 4124

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 2984

0-2!中超领头羊丢尽颜面,连续9场不胜日本球队,还沦为亚冠垫底

侃球熊弟 浏览 4135

60岁温碧霞和同龄人聚会,活成了“小公主”

听风听你 浏览 2884

北京一副局长骑电动车送外卖,“原以为骑手最关心社保政策,没想到他们张口就是‘别罚我款’”

第一财经资讯 浏览 3398

今年冬天一定要有“格纹单品”,复古又时髦

LinkFashion 浏览 2849

激怒特朗普 BBC身陷数十年来"最严重危机"

鲁中晨报 浏览 35493

ACEMAGIC阿迈奇预告M1A PRO+迷你主机,搭载锐龙AI Max+ 395

IT之家 浏览 3672

真心话大冒险开启,谁是你的双11购物车ONEPICK?

时尚COSMO 浏览 3427

被控诉家暴女儿 "疯狂英语"李阳诉前妻案一审胜诉

红星新闻 浏览 6241

若乌方试图袭击克宫俄方将作何反应 佩斯科夫表态

环球网资讯 浏览 4784

想年前用3周“刷新”好状态?做第一点就够

黎贝卡的异想世界 浏览 2950

你喝的奶茶上黑名单了吗?教你在家就能做的神仙饮品

Yuki女人故事 浏览 4167

补能快也智能 奇瑞纯电皮卡威麟R08 EV售12.78万起

网易汽车 浏览 3132

内维尔:姆伯莫的射门相当离谱且草率,他需要改进临门一脚

懂球帝 浏览 3550

直击MWC2026|AI重构通信网络,6G“卡位战”提前到来

第一财经资讯 浏览 2447
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1