爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

德转为金球奖...

美国一军用炸...

伊朗外长：美...

弗兰克：球队...

玩物造心 |...

雷军大动作！...

海澜之家：衣柜变大，增长变小

欧盟限制中国企业参与5G建设，商务部回应：坚决反对

塞梅尼奥立竿见影，曼城10球隔山敲打阿森纳

304万辆库存压顶，汽车经销商的生死转型！

云南省农科院征集新品种月季名网友二舅的名字被采纳

俄总统特别代表：已向美方通报“海燕”核动力导弹试射情况

伊朗外长：战争结束取决于确保不再发生“侵略”

女子不喜欢名字＂丽春＂多次申请改名被拒县公安局回应

国内首个海上可复用火箭基地开工发射成本对标SpaceX

L90 产品故事：放下理想主义执念，接受必要的 “庸俗”

＂四无公司＂申领超100万生育保险:15名员工中13人生育

台湾名嘴蔡正元：黄海8天实弹演习只是前菜

日娱大瓜！虎大将军牵涉经济纠纷，而且已婚？

齐溪自曝二胎是女儿，二胎已经满一岁了，41岁生二胎原因好暖心

当AI奖励模型开始＂偷懒＂：字节跳动如何让它们跟上AI助手的步伐

斯科尔斯回应利马：有人踢了一场好球，真替你感到高兴

一夜进账244亿元！李斌靠爆款车翻身，破除蔚来倒闭魔咒，

巴基斯坦和阿富汗同意继续停火将于11月继续会谈

男子认亲1年后被警方告知＂亲哥找到了＂：那家里的是谁

看了被“烤瓷大白牙”毁了的年代剧，我怀念起了刘琳巩俐的乡土味

离谱！荣梓杉李禹熹聊天记录曝光，女方求荣梓杉报销372元房费

哔哩哔哩董事长兼CEO陈睿：优质视频内容能给用户获得感

短剧红毯成“见光死”现场，没了美颜和修图，遍地普男普女！

即将结束非洲之旅，网红Speed受邀观战非洲杯决赛并获赠球衣