爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

时隔一年重要...

从每天只睡4...

特朗普：以色...

同济发布全球...

被拐25年的...

美H-1B签...

尹锡悦看守所内收超6.5亿韩元代管金系总统年薪2.5倍

特朗普就伊朗问题表态伊朗：不会轻易相信美国

拉波尔塔：23年巴萨为梅西准备一份5年合同，但他选择迈阿密

王家卫评论区沦陷！跟秦雯调情还曾让女配音员舔手，滤镜碎了一地

2025长剧全网收视榜，《以法之名》跌至第10，第一播放量高达22亿

列阵“泰山” 岚图汽车迈入30万辆时代

热刺遭遇穆罕默德·库杜斯新的伤病挫折

又出血液肿瘤新药！百济神州股价微跌，“创新药一哥”能再造爆款？

王宝强没想到，和马蓉离婚9年后，自己的一双儿女开始为他争光了

全世界门槛最高的舞会，投胎大赛赢家都有谁？

香港科技大学突破AI画图＂作弊＂难题：让机器学会诚实创作

贝斯美实控人涉要约收购违规遭立案

5年内在英国推出10款新车吉利EX5伦敦上市售3.199万英镑起

离婚7个月，霸总杨子又给内娱上了一课

自动驾驶行业变天了！英伟达下场，要做“Robotaxi的安卓”？

张柏芝自曝被大儿子管很凶，教子有方连谢霆锋妈妈都称赞

灵鹊150无人机成功首飞

继续引援脚步，记者：北京首钢目前正在接触前NBA球员麦基

AI发展日新月异如何跟上变化？徐汇工匠学院人工智能训练师课程助你一臂之力

突破西方封锁万里眼超高速实时示波器全球首发

比亚迪双旗舰谍照来了！大汉/大唐，更大、更强

珍珠专场|| 无论20+还是60+，一定都会对它心动！

知情人曝李昀锐孟子义真谈了！狗仔疑似发文内涵，太多细节藏不住

闫学晶的账还没有算清，49岁李湘又“塌”了