关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3364人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

离婚分走4亿财产,最爽的投行女出现了

金融八卦女 浏览 3405

U23亚洲杯身价榜:中国第三力压日韩,沙特居首伊朗次席

懂球帝 浏览 3459

SEMA改装展亮相 凯美瑞GT-S概念车官图发布

车质网 浏览 4352

2026新年礼:欢迎来到「灵感剧场」

时尚COSMO 浏览 3569

业内独家无孔真全面屏!努比亚Z80 Ultra获认证:支持90W快充

快科技 浏览 4978

李小鹏女儿14岁奥莉近照刷屏!真是女大十八变

今古深日报 浏览 1598

《罚罪2》40集:彭局弘市长判刑20年

影像温度 浏览 3376

NBA战报:猛龙112-101骑士,埃文-莫布利29分

懂球帝 浏览 4230

7年联姻终止!蔚来合资公司注销

敖博管理 浏览 5088

2-0!申花扬眉吐气,掀翻韩国劲旅获首胜,亚冠排名超蓉城进前八

侃球熊弟 浏览 4353

腾讯回应元宝崩了

第一财经资讯 浏览 3101

台陆军运输群车队两辆军用卡车相撞 画面披露

环球网资讯 浏览 4180

14岁休学少女进拓展营后死亡 曾哭喊"妈妈我不想死"

新京报 浏览 38726

美军测试“一控多”无人机群

环球网资讯 浏览 3233

能否延续?热刺连续11个赛季晋级足总杯第四轮

懂球帝 浏览 3421

俄方表示结束乌克兰危机“欧洲方案”不具建设性

环球网资讯 浏览 4010

五万亿的英伟达

诗与星空 浏览 4215

净利润减少超50%,珍酒李渡能靠“大珍”走出低谷吗?

征探财经 浏览 2670

女子被判向出轨丈夫公开道歉15天 道歉视频引万人围观

大风新闻 浏览 14109

内饰迎巨变 新款奥迪Q4 E-Tron最新消息曝光

乐选爱车 浏览 1223

净利腰斩 “非洲之王”传音失速

北京商报 浏览 3201
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1