关闭广告

东南大学突破:AI学会情境化拒绝能力

科技行者4432人阅读


由东南大学计算机科学与工程学院的杨俊明、许宁、刘彪、乔世奇和耿新等研究者组成的团队,最近在人工智能领域取得了一项重要突破。这项研究发表于2025年,论文编号为arXiv:2509.23371v1,提出了一种名为MetaAPO(Meta-Weighted Adaptive Preference Optimization)的全新AI训练方法。有兴趣深入了解的读者可以通过该编号查询完整论文。

要理解这项研究的重要性,我们先来看一个生活中的例子。假设你正在教孩子学习做饭,你有两种教学资源:一套经典的家传菜谱(就像AI训练中的离线数据),还有让孩子实际动手练习的机会(就像在线生成的数据)。传统的AI训练方法就像只用家传菜谱或只让孩子盲目练习,而东南大学团队的新方法则像是配备了一位智慧的厨艺老师,这位老师能够根据孩子当前的水平,灵活决定什么时候该参考菜谱,什么时候该放手让孩子实践,从而让学习效果达到最佳。

当前的大型语言模型训练面临着一个根本性的挑战:如何让AI既能从人类已有的经验中学习,又能通过实践不断改进自己。这就像是在平衡传承与创新的关系。传统方法要么过度依赖预先收集的人类反馈数据,导致AI无法适应新情况;要么完全

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广东佛山路边停车为收费出"奇招" 车主吐槽:吃相难看

中国新闻周刊 浏览 7639

冬季的“松弛感”,怎么穿?

Yuki女人故事 浏览 4105

乌克兰总统期待见特朗普谈“安全保障期限”

环球网资讯 浏览 3327

售32.99万起 2026款岚图梦想家正式上市

网易汽车 浏览 5187

曾押中马云的他,再次豪赌

创业家 浏览 4388

朱珠:逐渐淡然,依旧鲜活

时尚COSMO 浏览 3415

WTT总决赛男单决赛前,张本智和接受采访时引用高市早苗言论

懂球帝 浏览 3747

加冕荷兰射手王+助攻王!德佩:又一破纪录时刻,而且远未结束

懂球帝 浏览 4455

范明与妻子庆结婚30周年!每桌配茅台

楠楠自语 浏览 1758

美国突袭委未寻求国会批准 鲁比奥辩解:并非入侵行动

环球网资讯 浏览 3460

13.18亿大单!国网信通公告:子公司重大经营合同中标

红星资本局 浏览 4157

委总统要求保留军权 遭特朗普拒绝

新华社 浏览 3868

2026年国家补贴来了,只需三步,收好这份省钱指南!

贝壳财经 浏览 3479

市场监管总局发文禁止亏本卖车!比亚迪北汽响应

明镜pro 浏览 3803

外媒:美对华威胁加税100% 极限施压报复北京近期举动

环球网资讯 浏览 7279

斯塔默:中国已崛起 英国需要承认这种现实的对华政策

环球时报 浏览 22595

西媒:巴萨系俱乐部在仓库存了30万件球衣,共花费400万欧元

懂球帝 浏览 3220

加沙停火协议文件在埃及签署

鲁中晨报 浏览 4532

文晏回应争奖!直言不认识白百何否认沪圈投资,白百何再次内涵

萌神木木 浏览 4324

情侣连续9年在千年古树下合影:18岁喜欢的人还在一起

潇湘晨报 浏览 9989

日本经济长期疲软,日元购买力跌至53年来最低

环球网资讯 浏览 2845
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1