爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

“京圈恶少”...

冬天的“外套...

北约和俄罗斯...

国内知名男演...

数百美军从卡...

美国“恢复核...

47岁余皑磊演戏多年无人问，一演特务众人知

美国务院批准向波兰出售“标枪”导弹系统

白酒巨头一季报业绩普降，白酒拐点临近还是拐点远未到来？

晕了晕了！宽基指数ETF遭主力抛售逾2000亿元！别慌，超百只行业主题ETF正被资金抢筹（附名单）

2026款比亚迪海豹05 DM-i上市售价7.98万元

媒体：一级政府拒不执行法院判决是非常恶劣的示范

宁德时代：钠新乘用车动力电池正在与客户推进开发、落地中

兰帕德有能，考文垂队史首次取得单赛季联赛六连胜

今年冬天，流行穿得“花”一点！

陈丽华告别仪式举行：学生怀念其手把手教学

1999元起华为畅享70X尊享版开售：麒麟8000芯片、一键发送北斗卫星消息

媒体：特朗普会晤前后与普京通话不知乌总统是否满意

大陆制裁3家涉对台军售美企国台办回应

50岁女人穿衣，记得色不过三、衣不紧身，照着穿想不气质都难

夸克“C计划”浮出水面，AI超级应用卡位战升级

电车购置税补贴减半在即，这场兜底之战谁敢不打？

以“和美”之韵演绎时代新声五粮液亮相第二十三届中国国际酒业博览会

秋天衣服没有必要买太多！这三款单品提前备好，百搭又不挑人

没补贴、收购置税，新能源车好日子到头了？现实会打服“恨电派”

有野心有手段的大女主有多能打？

姚晨曹郁发离婚声明凌潇肃评论区沦陷

市场关键时点前夕，伦敦金属交易所交易一度中断两小时，铝锌等金属受影响

摩恩电气深V之意

白百何工作室放聊天记录了！锤了剧组没撒谎，东京之前就有矛盾