关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19099人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

台媒曝光周星驰天价片酬!没有天价不愿接演,比张国荣还要高三倍

文艺圈娱乐号 浏览 12928

从 Meta 拆解、苹果眼镜爆料,看「不科幻但好用」的 AR 眼镜|硬哲学

爱范儿 浏览 978

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 1000

评论丨网购衣服上的“密码锁”,是商业诚信的刺眼“疤痕”

红星新闻 浏览 700

灰熊做空中通快递全文:中国“一流”物流的真相

阿尔法工场 浏览 19599

米体:小维阿劝说前队友贾洛加盟尤文,告诉他自己在尤文很开心

直播吧 浏览 12927

现货比特币ETF上市交易,比特币涨约7%后一度转跌,灰度成交量爆表

华尔街见闻官方 浏览 12407

意媒:金玟哉使那不勒斯关注亚洲球员,有意李刚仁、久保和堂安律

直播吧 浏览 18463

媒体:不客气地说 荷兰是在全球面前抢劫中国企业

环球网资讯 浏览 6013

荣盛发展收购新能源资产是一笔好买卖吗

清流 浏览 15586

2024年第一颗大雷爆了?富人收割机,终于割不动了

象视汽车 浏览 12701

法甲官方第26轮最佳阵:梅西、姆巴佩在列,巴黎四将入选

直播吧 浏览 19219

法国农民展开"巴黎围城" 粮农放话:让巴黎人挨饿

环球时报国际 浏览 79569

丰田探索车载无人机系统:车辆通过复杂路况之前能帮你“探路”

IT之家 浏览 1034

TA:从进攻核心到压迫发起点,梅西角色延伸提升球队上限

懂球帝 浏览 207

复旦哲学教授:ChatGPT的最大瓶颈和人工智能的未来

澎湃新闻 浏览 18060

格雷系的高阶穿法来了,高级又简约!

LinkFashion 浏览 13375

红色最时髦的4种穿法,大气又高级

小西的穿搭日记 浏览 13301

为朝廷鞠躬尽瘁,绝对中兴之臣,死后却险遭皇帝鞭尸,原因很简单

趣看热点 浏览 26332

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 1084

美军多海域再现“航母真空”

环球网资讯 浏览 606
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1