爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

2025年的...

梓渝施洛华官...

港媒曝光何超...

全尺寸SUV...

刚刚！利好，...

西蒙尼：巴埃...

预售31.98万起吉利银河V900即将上市

明年上市金标大众首款轿车与众07申报信息发布

中国游客到迪拜参加婚礼被困：目睹导弹从上空飞过

新中式，才是属于我们的时尚与生活

2025全球十大工程成就发布，DeepSeek、人形机器人等入选

今年冬天最流行搭配：裤子+靴子，高级又时髦！

单车成本飙涨7000元，今年汽车公司还打得动价格战吗？

足球：雷恩成为欧洲五大联赛第四大球员输送俱乐部

新年的“一抹红”，这样穿惊艳全场

美军多海域再现“航母真空”

当选对阵巴黎全场最佳，诺伊尔社媒庆祝胜利：团队

62岁农村大爷打赏女主播50万全家人一查账单直接傻眼

2025秋冬一定要拥有的4款包包，怎么搭都好看

杨振宁逝世：改变了中国人觉得不如人的心理/库克：苹果AI正努力入华/GPT-5攻克「百年数学难题」遭反转|Hunt Good周报

百年同仁堂，怎么成了中药界的“南极人”？

百万粉丝网红小英丈夫被刑拘夫妻已数月未住村里

我国最“不靠谱”专家，公开在央视“忽悠”人

媒体：福建舰入列中国航母实力世界第二位置毫无争议

酿酒入列历史经典产业，郎酒的“慢功夫”见真章

台＂馆长＂称＂把赖清德狗头斩下来＂遭民进党当局约谈

方程豹钛3拆车：情绪烘托到这份儿上，你会买单吗？

汇聚超千项前沿成果，第八届长三角科技成果交易博览会开幕

《年少有为》追剧团 41岁叶祖新和31岁彭昱畅同框

价格倒挂加剧，经销商危机恐反噬整车厂