爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

深夜，全线崩...

巴黎极端球迷...

哈登致意艾弗...

中方出手反制...

人民币汇率破...

理想超充桩突...

OPPO AI战略曝光！全场景、全链路，要把 AI 做成系统？

王健林和王思聪同一天上热搜！都是因为欠钱，父子被执行超52亿…

这些才是真正适合普通人的穿搭！舒适减龄，整体形象得到美化

中方点名以色列呼吁实现加沙真正持久停火

马杨马君妍官宣怀二胎，马立奥要当哥哥了

蔚来ET5T暗影套装限定版上市售价31.6万元

“吹哨人”，最高奖励100万！

大动作调仓！机构开年疯狂扫货这些板块，而火爆的芯片、半导体ETF竟被抛售

申万宏源：2025年科技牛只是小菜，2026年下半年将迎来全面牛

钟楚曦合影风波升级！站C位评论区沦陷，杨幂刘亦菲差点没挤进去

网坛名宿预测德约在澳网后退役，被六千名塞尔维亚球迷围攻

美政府“停摆”持续，特朗普命令美防长动用“所有可用资金”保军饷

中方代表团成员当面质问荷兰国防大臣

国足出战FIFA系列赛！媒体人热议：托国际足联福，别一直闭门造车

新能源汽车的轮胎，为啥那么贵？

萨顿：枪手踢得很不错，失利会让他们变得更加强大

不顾警告与刘涛传出绯闻的杨烁，到底谁在给他撑腰？

苹果iOS 26.2开发者预览版Beta发布：大批功能改！锁屏也能自定义液态玻璃

美国进逼委内瑞拉分析人士:已突破国际法的危险界限

曝李金铭怀孕待产！直播账号已停更近半年，曾卷入知三当三风波

北京79-73战胜浙江球员评价：2人优秀，4人及格，4人低迷

媒体：特朗普提出中美＂G2＂概念日本不安拼命找存在感

志愿军＂冷枪英雄＂:用206颗子弹杀敌203人受金成日接见

特斯拉擎天柱正式量产！已下线并投入内部测试