爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

8样回购N次...

继弯刀裤，阔...

货拉拉跑腿骑...

真我售后网点...

贵州2岁女童...

图片报：塔踩...

新势力比传统车企更乐观，2026年车市充斥着哪些挑战？

德国军事人员突然撤离格陵兰岛原因不详

罗晋婚变疑云再升级，任素汐也遭殃

石药集团185亿美元合作背后

E句话| 白姐从不爆假料？

宁波网友投诉到理发店理发被诱导消费：1次花了6万元

高市早苗4天上3次新闻联播：玩火者必自焚

尚水智能三度试水A股终迎曙光比亚迪十亿关联交易护航IPO闯关

女子开宝马住高端小区却偷榴莲保安提醒后她又拿2件

成熟女性秋天衣服怎么穿？看看这些穿搭就有灵感，舒适又简约

男子吐槽一家医院＂收费贵＂遭起诉被判＂道歉并赔偿＂

特朗普：美军在与伊朗冲突中可能还会出现更多伤亡

Anthropic发布金融AI代理，FactSet等数据服务商遭到冲击

韩国峰会临近特朗普频频放风突然公布一涉华重磅消息

AI竞赛白热化！全球资本开支飙升，中国快速追赶

洪秀柱警告日本别惹事：小日本不要太嚣张

2025年首例被北交所暂缓审议的企业出炉永大股份上市缘何待考？

京东互联网医院再发力，疾病标准化诊疗路径增至317种

向导掐人中救醒高反昏迷女子反遭掌掴女子否认＂装晕＂

伊朗总统：要么强硬前行要么牺牲

9岁小酒窝，大大方方成顶流

《新闻女王2》首播爆开！开局高能剧情紧凑，黄宗泽演技拖后腿

新人中东度蜜月突遇战争爆发新娘在领空关闭前幸运离境

京东汽车来了！埃安UT super上市，4.99万起，你会考虑吗？