爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

患者花费超1...

见好就收？年...

杭州女子洗完...

经济观察报：...

贾国龙服软了...

三万俱乐部的...

特朗普称美将管理委直至安全过渡

达利欧警告：美伊在霍尔木兹海峡的＂决战＂将改变世界

被瑞幸冲击，星巴克撑不下去了……

明年1月发布新款迈巴赫S级路试谍照曝光

大S离世一周年，S Hotel酒店大门被木板封住

这些才是最适合普通人的造型！不用穿大牌、不老套，真实自然

沈梦辰陪婆婆追星圆梦，开朗婆婆让梦辰有点社恐

假期重磅！委内瑞拉局势影响多大？AI、商业航天、智能驾驶都有大利好

美股芯片股全线大跌，希捷科技盘后猛涨17%，闪迪大涨4%，国际油价涨超3%，霍尔木兹海峡传来新消息

6岁女童练习＂下腰＂致截瘫经营者曾因逃避执行被刑拘

孤本奉献，世界音像遗产日今日特别放送！❤️

微软豪掷79亿美元投资阿联酋AI企业G42，加速中东AI设施建设

才播6集热度破8900，悬疑剧有天花板了

购置税新规下的购车选择题，插混车抄底还是等新车？

高管减持、股东跑路、产品爆炸：上市公司的“中年危机”

推3款车型吉利银河V900将于1月20日上市

小伙夜骑疑与黄麂相撞小伙断了2根骨头黄麂仍在救治

新款坦克400 4种动力+激光雷达纯电续航200公里

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

失业半年！52岁卡纳瓦罗获国足邀请：有望时隔4年重返中国

E句话| 他们将补办婚礼？

中方表态菲律宾加拿大签军事协议

普京与特朗普通电话讨论伊朗局势

收购两公司探路者加码芯片业务