关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1377人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国汽车发动机新格局丨大众、丰田不再主流,谁主沉浮?

小鹏财经 浏览 4234

王力宏伴舞机器人高难度后空翻后稳稳落地,马斯克点赞!

大象新闻 浏览 3426

吴建豪妈妈晒与言承旭周渝民阿信合照

准备好了吗 浏览 3068

《水龙吟》《天地剑心》一弃一追

古木之草记 浏览 4026

她们的人生牛仔裤,链接都在这了

黎贝卡的异想世界 浏览 1104

65岁林俊贤广东景区打工,年过6旬老成“龙王”,努力赚钱不丢人

温柔娱公子 浏览 4332

美乌总统再度激烈争吵 特朗普爆粗口还把地图给扔了

扬子晚报 浏览 9985

她穿一身大红参加葬礼,浪漫又感人?真是活久见哪

Yuki女人故事 浏览 2999

泽连斯基称乌美代表团将于本周晚些时候举行会谈

国际在线 浏览 3606

贵州茅台打假“飞天开放企业直供通道”等信息:有诈骗风险!

红星资本局 浏览 3126

美股多板块盘中集体重挫,一份假想AI报告引发的抛售潮

华尔街见闻官方 浏览 2537

何超莲晒全家福,三太瘦了很多,窦骁仍缺席

素素娱乐 浏览 114

梅州1-4云南,佩德罗-恩里克双响,迪力穆拉提任意球建功

懂球帝 浏览 4185

特朗普称美将管理委直至安全过渡

新华社 浏览 2606

拉波尔塔:如无意外月底回归诺坎普;弗里克在巴萨很开心

懂球帝 浏览 4043

春节档全盘点、春晚、中戏反腐、冬奥会等

电影最TOP 浏览 2582

驱动绿色智算 筑牢AIDC基石:华为携液冷热管理控制器TMU亮相2025CDCC大会

环球网资讯 浏览 3744

35岁男子自称婚内出轨女大学生 妻子还有40多天生产

上观新闻 浏览 9215

电动Jeep曝新国产计划:或使用猛士技术,首车在2027年上市

明镜pro 浏览 4306

特朗普:对委军事行动使用了空中、陆地和海上力量

极目新闻 浏览 3291

郑丽文就职演说让马英九流泪 台媒:他看见蓝营的希望

海峡导报社 浏览 9975
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1