关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19098人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吉比特狂赚5.69亿!创始人卢竑岩分红独揽1.28亿!

包不同 浏览 792

VR 交互升级:Quest 3应用现支持手势和控制器混合操作

IT之家 浏览 12366

李在明表态:韩国站美国一边 但要妥善处理对华关系

澎湃新闻 浏览 11823

石破茂发表战后80年"个人见解" 专家:需要政治勇气

环球网资讯 浏览 1081

媒体:不客气地说 荷兰是在全球面前抢劫中国企业

环球网资讯 浏览 6013

糊了22年,他终于凭借「性张力」火了

独立鱼 浏览 841

中国今年首场重大主场外交活动后 陕西省长率团出访

政知新媒体 浏览 91345

光大银行董事会换届减员,4名新面孔亮相

财经众议院 浏览 1448

股权被冻结还被带走调查?王濛工作室发声回应

上游新闻 浏览 14641

在加拿大失踪大半年后 17岁中国留学生的遗体被发现

新民周刊 浏览 91806

维持看涨!摩根大通预计金价明年底均价升至5055美元

第一财经资讯 浏览 920

世界上最美的裙子,没有女人会拒绝它

小西的穿搭日记 浏览 15902

二十届中央财经委员会亮相 人口发展成为关注点

财联社 浏览 18688

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

封面新闻 浏览 6547

台湾省金钟奖成了“照妖镜”,小S拿奖后,破防人算是照明白了

娱乐圈笔娱君 浏览 925

赵伟:“四中”前瞻:新“五年”的新期待

首席经济学家论坛 浏览 924

他们擦边擦成了业界顶流?!

煮娱星球 浏览 16873

一年一度剪短发的时候到了!看完这篇翻车率减少了!

Yuki女人故事 浏览 11436

2025款比亚迪海狮05 EV完全评价报告

车质网 浏览 845

保暖和颜值兼备,你太需要它了 | 好物

LinkFashion 浏览 14062

“价格战”才能凸显凯美瑞的高价值所在

汽车公社 浏览 12233
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1