关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12538人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一轮有望创历史新高的“鸡周期”来了?

华尔街见闻 浏览 18998

Uber称正与特斯拉合作 购买Model 3/Y将最高补贴司机2000美元

网易科技报道 浏览 12688

兴业银行异常涨停操盘者:系福建省属国企,此前已持有该行2.8%股份

澎湃新闻 浏览 12953

欧盟委员会“以身试法”:涉嫌违规使用微软 365 ,被勒令整改

IT之家 浏览 11265

车机升级 新款丰田皇冠陆放售28.48万起

网易汽车 浏览 11146

加速进化抢单“双11”

北京商报 浏览 804

索要1000万元逼死丈夫苏享茂 翟欣欣一审获刑12年

界面新闻 浏览 12390

郭富城爱驹赛马跑第一赢百万奖金,紧搂方媛庆祝

娱絮 浏览 16557

董明珠再回应“手机核心团队解散”:我现在用的就是格力手机,消费者用了都说好

每日经济新闻 浏览 16376

朝方称越界入朝美军士兵"下决心倒戈" 美方回应

环球网 浏览 14385

媒体:上合组织因俄乌战事面临三重困境 中国迎来机遇

直新闻 浏览 63824

天马推出高端 OLED 技术品牌“天马天工屏”

IT之家 浏览 1707

我国又添“超级充电宝”:世界坝体最高抽水蓄能电站全面投产发电

IT之家 浏览 820

朱孝天方回应被踢出F4,刚合体时就挺不合群,如今开公司当老板

萌神木木 浏览 634

羊绒专场|| 如果秋冬只买一件针织衫,我一定毫不犹豫选它(已穿上)

黎贝卡的异想世界 浏览 1880

公司创始人被指打断妻子七根肋骨 被刑事立案后取保

上游新闻 浏览 91701

杨钰莹造型好新潮:上半身约会,下半身跑步

木子爱娱乐大号 浏览 19659

加里-麦卡利斯特:林德斯是纯粹的足球人;杰拉德还会再执教

懂球帝 浏览 707

郭德纲否认于谦离开德云社单飞 称将于4月回归

网易娱乐 浏览 19086

俄网红直播冻死女友,为1000美元打赏将其全裸丢到户外

趣看热点 浏览 26263

最终票房24亿?张艺谋《第二十条》逆袭,中国大导演的荣光回来了

肥罗大电影 浏览 12567
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1