关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1741人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

布兰特多特队友最佳阵:罗伊斯、哈兰德在列,贝林厄姆入选

懂球帝 浏览 725

亚洲颜值天花板,居然合体了

独立鱼 浏览 3637

尼科尔:梅努在脚下有球时很出色,但当对手控球时他做得不够

懂球帝 浏览 4664

新一轮价格战?本田:不到17万买冠道,蔚来:“购置税”全免!

少数派报告Report 浏览 2689

男子同时筹备"2场婚礼" 被抓正与"未来岳父母"谈婚房

鲁中晨报 浏览 10545

上海老教授花600万借孙女名字买房 结果要不回来了

都市快报橙柿互动 浏览 45305

3人因销售火麻种子被判缓刑申诉获再审 法院维持原判

澎湃新闻 浏览 23166

加盟米兰至今只替补出场1次,斯基拉:奥多古可能在冬窗离队

懂球帝 浏览 4365

深度丨怡园酒业连涨9倍:杨陵江的F2B2C酒饮商业操作系统开启裂变

财经无忌 浏览 3455

拉姆塞:我的合同被美洲狮终止了,这令我感到意外且失望

懂球帝 浏览 3775

一句话,干掉586亿

深蓝财经 浏览 5364

媒体:泰军缴获柬军中国制造反坦克导弹 有人阴阳怪气

新民周刊 浏览 14498

2026支付宝集福最大亮点:新增“健康福”红包,由蚂蚁阿福发放

澎湃新闻 浏览 3351

大师赛赵心童5-3领先赛点,决胜局选择逆转

百态中的情感起伏 浏览 3443

AMD ROCm 软件堆栈更新至 7.0.2 版本,支持 Radeon RX 9060 显卡

IT之家 浏览 4661

汽车图谱⑳|新能源车迎最强“金九” 新势力头部月销达4万量级

贝壳财经 浏览 4584

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

天天汽车 浏览 3358

聂卫平告别仪式在八宝山举行 "一生的对手"冒雪来送别

新民晚报 浏览 7837

摸吉祥物女演员胸部,前塞尔塔队长马略被判赔偿1000欧

懂球帝 浏览 4061

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 3847

国羽包揽韩国公开赛混双冠亚军

体坛周报 浏览 5113
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1