关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014268人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:高市早苗被批"日本之耻" 特朗普一来人设绷不住

澎湃新闻 浏览 10968

努诺未来明确,西汉姆联确认新团队成员

绿茵情报局 浏览 3510

媒体:被美国逼着“朝中国开枪” 韩国玩得起吗

澎湃新闻 浏览 4632

亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

靠谱电影君 浏览 3684

卢浮宫一件被盗文物被发现已损毁 疑为欧仁妮皇后皇冠

极目新闻 浏览 8921

俄副总理称亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报 浏览 4197

卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

罗米的曼联博客 浏览 3542

媒体:向乌提供"战斧"或只是幌子 特朗普可能另有打算

枢密院十号 浏览 18722

中央批准 开除姜德果、唐德智党籍

北京日报客户端-长安街知事 浏览 43731

60岁老人猥亵7岁女童:将手伸入女童的生殖器官

中国新闻周刊 浏览 9280

对标Meta、苹果,Snap十年研发高端AR眼镜定价2195美元

环球网资讯 浏览 112

阿森纳10月最佳候选:加布里埃尔、赖斯、萨卡、廷贝尔

懂球帝 浏览 4303

成龙满嘴谎话?却被兄弟公开指责吝啬人品差?

小娱乐悠悠 浏览 4704

11场0球0助!利物浦1.3亿巨星不服被批:前面只是适应 别总盯着我

风过乡 浏览 4387

定位大型旗舰SUV 零跑D19预告图发布

车质网 浏览 4153

打不开的车门 小米SU7 Ultra成都交通事故细节详解

网易汽车 浏览 2854

赵磊:一个把粉丝当ATM,最后和私生锁死的男人

八卦三缺一 浏览 3773

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 4113

“复古运动风”今年秋天太流行了,这样穿减龄又好看!

LinkFashion 浏览 4514

邦本宜裕:给自己本赛季表现打100分,本来想完成20个助攻

懂球帝 浏览 4333

货拉拉跑腿骑手取走万元苹果手机后失联 手机店主发声

红星新闻 浏览 9692
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1