关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014133人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

晕了晕了!宽基指数ETF遭主力抛售逾2000亿元!别慌,超百只行业主题ETF正被资金抢筹(附名单)

每经牛眼 浏览 3308

2026款比亚迪海豹05 DM-i上市 售价7.98万元

车质网 浏览 3904

媒体:一级政府拒不执行法院判决 是非常恶劣的示范

南方都市报 浏览 6946

宁德时代:钠新乘用车动力电池正在与客户推进开发、落地中

IT之家 浏览 4377

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 4327

今年冬天,流行穿得“花”一点!

LinkFashion 浏览 3942

陈丽华告别仪式举行:学生怀念其手把手教学

红星新闻 浏览 59117

1999元起 华为畅享70X尊享版开售:麒麟8000芯片、一键发送北斗卫星消息

快科技 浏览 3910

媒体:特朗普会晤前后与普京通话 不知乌总统是否满意

新民晚报 浏览 24814

大陆制裁3家涉对台军售美企 国台办回应

界面新闻 浏览 4654

50岁女人穿衣,记得色不过三、衣不紧身,照着穿想不气质都难

静儿时尚达人 浏览 4325

夸克“C计划”浮出水面,AI超级应用卡位战升级

华夏时报 浏览 4285

电车购置税补贴减半在即,这场兜底之战谁敢不打?

汽车公社 浏览 4296

以“和美”之韵演绎时代新声 五粮液亮相第二十三届中国国际酒业博览会

中国商报 浏览 4398

秋天衣服没有必要买太多!这三款单品提前备好,百搭又不挑人

静儿时尚达人 浏览 4490

没补贴、收购置税,新能源车好日子到头了?现实会打服“恨电派”

小李车评李建红 浏览 5042

有野心有手段的大女主有多能打?

雪豹财经社 浏览 4411

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

老吴教育课堂 浏览 2362

市场关键时点前夕,伦敦金属交易所交易一度中断两小时,铝锌等金属受影响

华尔街见闻官方 浏览 2371

摩恩电气深V之意

富凯财经 浏览 4106

白百何工作室放聊天记录了!锤了剧组没撒谎,东京之前就有矛盾

萌神木木 浏览 3374
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1