关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1378人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中方点名以色列 呼吁实现加沙真正持久停火

新京报 浏览 248

马杨马君妍官宣怀二胎,马立奥要当哥哥了

扒虾侃娱 浏览 4175

蔚来ET5T暗影套装限定版上市 售价31.6万元

车质网 浏览 4109

“吹哨人”,最高奖励100万!

中国基金报 浏览 3316

大动作调仓!机构开年疯狂扫货这些板块,而火爆的芯片、半导体ETF竟被抛售

每经牛眼 浏览 3175

申万宏源:2025年科技牛只是小菜,2026年下半年将迎来全面牛

金石随笔 浏览 3895

钟楚曦合影风波升级!站C位评论区沦陷,杨幂刘亦菲差点没挤进去

萌神木木 浏览 4200

网坛名宿预测德约在澳网后退役,被六千名塞尔维亚球迷围攻

网球之家 浏览 4088

美政府“停摆”持续,特朗普命令美防长动用“所有可用资金”保军饷

环球网资讯 浏览 4398

中方代表团成员当面质问荷兰国防大臣

每日经济新闻 浏览 117

国足出战FIFA系列赛!媒体人热议:托国际足联福,别一直闭门造车

奥拜尔 浏览 3281

新能源汽车的轮胎,为啥那么贵?

小李车评李建红 浏览 4204

萨顿:枪手踢得很不错,失利会让他们变得更加强大

懂球帝 浏览 1323

不顾警告与刘涛传出绯闻的杨烁,到底谁在给他撑腰?

二妹扯娱 浏览 3805

苹果iOS 26.2开发者预览版Beta发布:大批功能改!锁屏也能自定义液态玻璃

快科技 浏览 3982

美国进逼委内瑞拉 分析人士:已突破国际法的危险界限

上观新闻 浏览 3983

曝李金铭怀孕待产!直播账号已停更近半年,曾卷入知三当三风波

萌神木木 浏览 3288

北京79-73战胜浙江 球员评价:2人优秀,4人及格,4人低迷

篮球资讯达人 浏览 3130

媒体:特朗普提出中美"G2"概念 日本不安拼命找存在感

澎湃新闻 浏览 31662

志愿军"冷枪英雄":用206颗子弹杀敌203人 受金成日接见

极目新闻 浏览 9171

特斯拉擎天柱正式量产!已下线并投入内部测试

汽车网评 浏览 1021
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1