关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19101人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

普京:"欧盟需要俄罗斯"胜过"俄罗斯需要欧盟"

环球网资讯 浏览 74947

万科:董事长辛杰辞职

网易财经 浏览 1036

“私拆承重墙”通报:房东物业从重按上限处罚!248套房均未发现结构构件受力裂缝,修复后可满足安全使用要求

每日经济新闻 浏览 16684

星空相册|天宇上演木星伴弦月

新华社 浏览 1113

年入10亿的创业公司怎么做大模型

中国企业家杂志 浏览 16682

iCAR苏峻:我们不做夹生饭,不造速生车

网易汽车 浏览 96

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 66

看了她们才知道 原来方脸这么美

LinkFashion 浏览 15952

湖人官推:还记得去年12月浓眉爆砍55分17板3帽吗?

直播吧 浏览 14298

财政部:1-8月国有企业利润同比下降2.7%

财政部 浏览 1441

杨幂化身女保洁摆拍,被男保镖簇拥尽显女王范

深剖娱乐圈 浏览 15624

美国自动驾驶公司Aurora计划今年实现无人驾驶卡车上路

IT之家 浏览 12800

7位割双眼皮的女星 大方承认口碑更好

FancyMusic 浏览 15108

不用等AI毁灭人类了!谷歌前CEO预言:明年的美国总统大选“一团糟”

财联社 浏览 15459

"刘三姐"黄婉秋病危 丈夫何有才:我可能保护不了她了

封面新闻 浏览 93263

外媒:北约讨论在日本设立联络处 马克龙表态反对

环球网资讯 浏览 16608

二胎妈妈离职前月薪4万 如今求职连面试机会都没有

大象新闻 浏览 82701

贾玲这场床戏,不该被嘲笑

独立鱼 浏览 12820

劲拓股份实控人等遭证监会合计罚没6.61亿元

网易财经 浏览 12781

从2.6万亿高空跌落,美团回到2018

雪豹财经社 浏览 12652

戏全被配角抢走!《大生意人》朱亚文向涵之出场,陈晓前10集白干

温柔娱公子 浏览 216
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1