关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1375人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

途经俄罗斯航班坠机38人身亡 机身或被弹片击中

南方都市报 浏览 24808

长安汽车10月销量27.8万辆 同比增长11%

网易汽车 浏览 3668

戴向宇曾单方面通知家人要和陈紫函离婚

乡野小珥 浏览 4838

老己,买点什么犒劳辛苦了一年的你?

时尚COSMO 浏览 3482

没入选巴西国家队,恩德里克在国际比赛日期间前往摩洛哥度假

懂球帝 浏览 4256

许绍雄离世,她说,老豆我很想你!但我不会再哭

振华观史 浏览 4143

“这个颜色”今天春天又火了!这样穿好看又减龄

LinkFashion 浏览 2241

技术+临床双向赋能成都脑机接口产业 迎来新机遇

封面新闻 浏览 1321

鹿晗的“体面”,终于被关晓彤撑起来了

娱乐圈笔娱君 浏览 3299

OpenMind 开源全球首个“AI 原生”机器人系统 OM1 Beta

IT之家 浏览 5003

50岁阿姨也能穿得亮眼高级,这些搭配的技巧请收好,特别实用

静儿时尚达人 浏览 6566

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 4126

卡塞米罗:我离开皇马时安帅哭了;吉马良斯是巴西下一代领袖

懂球帝 浏览 972

药品存在被污染可能,印度最大药企一仿制药被暂停进口,用于治疗阿尔茨海默

红星资本局 浏览 3006

什么信号?利好,又要来了?!

米筐投资 浏览 2656

两位省委常委跨省履新 其中一人曾长期在中纪委工作

极目新闻 浏览 10150

天籁出新款,鸿蒙座舱+燃油车,合资新出路来了?

Nice好车 浏览 4840

直播间买货更放心了!两大新规封堵虚假宣传、仅退款乱象

贝壳财经 浏览 2892

亚马逊CEO安迪·贾西:AWS到2027年底将实现电力容量翻倍

IT之家 浏览 1619

伊姐周日热推:电视剧《重影》;电视剧《山河枕》......

伊周潮流 浏览 3453

一个入局晚了的数据标注创业者,3个月亏了20万

刺猬公社 浏览 2756
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1