关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3365人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美记@湖人盼尽快换凯斯勒!艾顿难堪大任 湖媒愿提高报价出2首轮

颜小白的篮球梦 浏览 4344

机器人不约而同毛茸茸,年轻人抢着体验AI养老产品…首届WTCC太全面了

上观新闻 浏览 3464

高市早苗再有新动作日本准备拥有核武 中俄要早做准备

头条爆料007 浏览 45831

香奈儿2026高级手工坊|最贴近日常的高级奢华

LinkFashion 浏览 3787

犯罪团伙大胆却“业余”,珠宝黑市隐蔽且暴利,FBI前探员拆解卢浮宫劫案

环球网资讯 浏览 4417

英国AI科技界的“她力量”

新华社 浏览 4452

李嘉格点赞祝车澈越来越好,和男友冰岛过生日

眼底星碎 浏览 3243

桑德兰前锋伊西多尔:亨利发信息祝贺我,鼓励我继续前进

懂球帝 浏览 5007

拉什福德渴望永久转会愿大幅降薪!暗讽曼联,称巴萨让他重获新生

罗米的曼联博客 浏览 4459

委总统要求保留军权 遭特朗普拒绝

新华社 浏览 3872

西安突降暴雪航班大面积延误 旅客:被迫在机场跨年

封面新闻 浏览 18309

状态比10年前更好,她到底做对了什么?

黎贝卡的异想世界 浏览 3230

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 4429

影星梁小龙去世,曾拒绝拒再跟周星驰合作

TVB剧评社 浏览 3304

输水晶宫,斯洛特怨弗林蓬爱进攻?

体坛周报 浏览 4933

2026年央视春晚彩排开始!沈腾马丽回归,但呼声最高的是他们

娱乐圈笔娱君 浏览 3456

比亚迪中型车适合家用!油耗仅3.8L,还能加92油,省心也好养

汽车挖一挖 浏览 1142

特朗普称对伊朗战争可能持续4周 外交部回应

澎湃新闻 浏览 2635

媒体:一级政府拒不执行法院判决 是非常恶劣的示范

南方都市报 浏览 6942

江门中微子实验圆满完成工程建设任务

IT之家 浏览 3424

国民党"内讧"郑丽文开会不邀卢秀燕 党内炸锅大佬现身

博览历史 浏览 10366
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1