关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1601人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新中式,才是属于我们的时尚与生活

LinkFashion 浏览 3633

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 4508

今年冬天最流行搭配:裤子+靴子,高级又时髦!

LinkFashion 浏览 3908

单车成本飙涨7000元,今年汽车公司还打得动价格战吗?

界面新闻 浏览 3144

足球:雷恩成为欧洲五大联赛第四大球员输送俱乐部

绿茵情报局 浏览 3379

新年的“一抹红”,这样穿惊艳全场

Yuki女人故事 浏览 3316

美军多海域再现“航母真空”

环球网资讯 浏览 4031

当选对阵巴黎全场最佳,诺伊尔社媒庆祝胜利:团队

懂球帝 浏览 4160

62岁农村大爷打赏女主播50万 全家人一查账单直接傻眼

极目新闻 浏览 27332

2025秋冬一定要拥有的4款包包,怎么搭都好看

Yuki女人故事 浏览 3639

杨振宁逝世:改变了中国人觉得不如人的心理/库克:苹果AI正努力入华/GPT-5攻克「百年数学难题」遭反转|Hunt Good周报

爱范儿 浏览 4428

百年同仁堂,怎么成了中药界的“南极人”?

花朵财经 浏览 2876

百万粉丝网红小英丈夫被刑拘 夫妻已数月未住村里

红星新闻 浏览 42966

我国最“不靠谱”专家,公开在央视“忽悠”人

来科点谱 浏览 3340

媒体:福建舰入列 中国航母实力世界第二位置毫无争议

新民周刊 浏览 8877

酿酒入列历史经典产业,郎酒的“慢功夫”见真章

征探财经 浏览 4205

台"馆长"称"把赖清德狗头斩下来" 遭民进党当局约谈

环球时报新闻 浏览 22271

方程豹钛3拆车:情绪烘托到这份儿上,你会买单吗?

大飙车 浏览 3669

汇聚超千项前沿成果,第八届长三角科技成果交易博览会开幕

蓝鲸新闻 浏览 4468

《年少有为》追剧团 41岁叶祖新和31岁彭昱畅同框

往史过眼云烟 浏览 3217

价格倒挂加剧,经销商危机恐反噬整车厂

汽车人传媒 浏览 5117
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1