关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者2630人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

重马一跑者倒地去世 跑友:他在跑圈被称为"破三大神"

红星新闻 浏览 11359

看看这些穿搭就知道,秋季穿衣很简单,找对方法舒适又得体

静儿时尚达人 浏览 2501

司晓迪扯出内娱灰产,难怪王大发连夜起诉割席,网友呼吁整治内娱

萌神木木 浏览 1288

中国代表:日本必须深刻反省历史罪责停止挑衅越线

新华社 浏览 2051

特朗普访日 高市早苗将罕见与其共同搭乘美国总统专机

新京报 浏览 8441

发投入同比“八连增”,贝壳Q3财报研发投入增长13.2%

市值Observation 浏览 2425

心系球队,梅西一家现身看台观战阿根廷vs委内瑞拉

懂球帝 浏览 2818

车崇健被嘉宾集体吐槽!Papi直言他听不懂人话,网友喊话别复合了

萌神木木 浏览 2499

伊姐周日热推:电视剧《超感迷宫》;电视剧《风与潮》......

伊周潮流 浏览 1680

遍布全国的连锁餐饮,为何进不了江西?

BT财经 浏览 3341

中际旭创大股东拟高位减持22亿,机构持仓已提前“释压”

第一财经资讯 浏览 3388

唐嫣罗晋离婚?她的状态早就说明一切

隔壁灵妹妹 浏览 2458

笑掉大牙!日票房仅199万,黄晓明的新片,被“小李子”打懵了

温柔娱公子 浏览 2633

凌晨4点利物浦保卫战!输球=英超5连败+72年之耻 标王缺席

叶青足球世界 浏览 2562

投资铜条1公斤280元 网友再也不敢叫"破铜烂铁"了

北京商报 浏览 6098

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 3510

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 3414

惊现哈基米!广东四川CBA比赛中场地内跑进一只小猫

懂球帝 浏览 1677

吉利发布全域AI 2.0 千里浩瀚G-ASD全面进化

网易汽车 浏览 1741

王健林和王思聪同一天上热搜!都是因为欠钱,父子被执行超52亿…

火山诗话 浏览 3334

重磅!日产总部大楼被中国企业拿下!

电动知家 浏览 2449
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1