爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

“北溪”爆炸...

俄称已控制库...

急流勇退？赵...

98版沙僧刘...

「以演聚力·...

五角大楼摊牌...

摩洛哥队长赛斯自宣从国家队退役，共代表摩洛哥出场86次

国米客战那不勒斯：劳塔罗搭档博尼，德布劳内、巴雷拉出战

熊黛林带双胞胎女儿旅行，2个女儿长得完全不一样，都特别可爱

天津外援阿代米谈胜利：现在要做的是忘掉这一场比赛，准备下一场

真爱大牌返场|| 一上线就被抢空的牌子，这次居然100+就能拥有

利民推出 PA140 SE 双塔风冷：158mm 高双风扇六热管，275W 解热

泰国总理：解散国会下议院不会影响泰柬边境局势

全尺寸SUV定位奕境首台工程样车下线/量产版4月发布

九年情怀喂了狗！《楚乔传2》口碑崩盘

枭龙突防S-400：中械武器如何改写印巴冲突

中移互联网、支付宝、华为合作，打电话也能聊AI、看菜单办业务

何猷君法国婚礼高调奢华，奚梦瑶行头4500万

贺娇龙被安葬在父亲身边昭苏居民：她对昭苏功不可没

央剧《生命树》播出4天，43岁杨烁口碑实现逆转

问界M6主打运动操控，正面对垒小米YU7

中方点名以色列呼吁实现加沙真正持久停火

海尔集团与蚂蚁集团签署全面战略合作协议聚焦数字支付与医疗健康

租客死亡4年后房东以＂房屋贬值＂把中介告了法院判了

吉利全球全域安全中心发布领克900完成碰撞测试

2号种子险爆冷！张本智和打满5局逆转日本悍将，8强战约战勒布伦

员工超长时间如厕被开除单次最长4小时辩称护理痔疮

理想超充桩突破2万根

苹果公司总市值首次升破4万亿美元

张水华开直播官宣周五出发周末战重