关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1013959人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

天津外援阿代米谈胜利:现在要做的是忘掉这一场比赛,准备下一场

直播吧 浏览 4961

真爱大牌返场|| 一上线就被抢空的牌子,这次居然100+就能拥有

黎贝卡的异想世界 浏览 3973

利民推出 PA140 SE 双塔风冷:158mm 高双风扇六热管,275W 解热

IT之家 浏览 4313

泰国总理:解散国会下议院不会影响泰柬边境局势

环球网资讯 浏览 3482

全尺寸SUV定位 奕境首台工程样车下线/量产版4月发布

网易汽车 浏览 3459

九年情怀喂了狗!《楚乔传2》口碑崩盘

肆季娱乐 浏览 1627

枭龙突防S-400:中械武器如何改写印巴冲突

浏览 8140

中移互联网、支付宝、华为合作,打电话也能聊AI、看菜单办业务

IT之家 浏览 3480

何猷君法国婚礼高调奢华,奚梦瑶行头4500万

喜欢历史的阿繁 浏览 96

贺娇龙被安葬在父亲身边 昭苏居民:她对昭苏功不可没

潇湘晨报 浏览 12677

央剧《生命树》播出4天,43岁杨烁口碑实现逆转

观察者海风 浏览 3078

问界M6主打运动操控,正面对垒小米YU7

驾仕派 浏览 2945

中方点名以色列 呼吁实现加沙真正持久停火

新京报 浏览 245

海尔集团与蚂蚁集团签署全面战略合作协议 聚焦数字支付与医疗健康

财闻 浏览 4324

租客死亡4年后房东以"房屋贬值"把中介告了 法院判了

封面新闻 浏览 9863

吉利全球全域安全中心发布 领克900完成碰撞测试

太平洋汽车 浏览 2942

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 4108

员工超长时间如厕被开除 单次最长4小时辩称护理痔疮

环球网资讯 浏览 7601

理想超充桩突破2万根

大象新闻 浏览 3550

苹果公司总市值首次升破4万亿美元

证券时报 浏览 3383

张水华开直播官宣周五出发周末战重

劲爆体坛 浏览 3151
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1