关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1014270人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广州一变电站迎来全球首发机器人:可全向移动、双臂协作

南方都市报 浏览 4080

铜价历史新高推动“复合集流体”量产提速,易开盖龙头“英联股份”能否成为跨界黑马?

时代周报 浏览 3830

美国务卿批准向中东国家出售价值258亿美元的武器

国际在线 浏览 1256

涉及巨额采购协议 印度纠结引进何种隐形战斗机

环球网资讯 浏览 3889

收视破1,全员狠人,我断言:央视这部剧,又要火向全国了

娱乐圈笔娱君 浏览 3569

罗马市政府:已协调各方,力争年底前完成罗马新球场最终设计稿

懂球帝 浏览 4673

歼-15舰载战斗机呼啸升空 看战机高速穿山谷

环球网资讯 浏览 5310

乌军袭击一生产弹道导弹的俄军工厂

每日经济新闻 浏览 2941

所以《All Her Fault》,其实都是“他的错”?

时尚COSMO 浏览 3182

长安启源2025年全年销量突破40万辆

IT之家 浏览 3718

曼联传奇警告梅努绝不能租借离队

绿茵情报局 浏览 3582

台北一醉酒女被男子拖墙边性侵超10分钟 现场无人制止

都市快报橙柿互动 浏览 8511

比尔·盖茨警告:AI或成恐怖主义武器且智能无上限

IT之家 浏览 3552

亚马逊美股盘前涨幅扩大至5%

证券时报 浏览 3854

50+女人怎么穿出时尚感?掌握这3招技巧,重新定义优雅与潮流

静儿时尚达人 浏览 4736

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 3401

东部第一!活塞双杀步行者13连胜平队史纪录 坎宁安24+11+6

醉卧浮生 浏览 4077

编码新未来!WAVE2025泛互全球领航者大会即将启幕

霞光社 浏览 4492

伊朗驻华大使:美国若敢动伊朗 影响将远超各方控制

中国日报网 浏览 13948

大爷拍"素颜巴黎"火了:欧洲行费用1万多 不会说英语

极目新闻 浏览 14284

何穗:新生亦重生

时尚COSMO 浏览 2652
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1