AI 中文社/资讯/详情

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

2025-01-12 发布 · 浏览282次 · 点赞0次 · 收藏0次

1 月 11 日消息，微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。

和微软之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理，这种方法模拟了人类逐步解决问题的思维方式，能够将复杂问题分解成更小的部分，逐步求解。

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤，并将自然语言作为 Python 代码注释，仅使用 Python 代码输出训练模型。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员训练了一个“策略模型”生成数学推理步骤，并使用“过程偏好模型”（PPM）选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进，不断提升性能。

研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据，并利用上述两个模型生成了新的解题步骤。

测试结果显示，应用 rStar-Math 技术后，Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%，将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%，分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究团队已在 Hugging Face 上宣布，计划将 rStar-Math 的代码和数据在 GitHub 上公开，方便其他研究者使用和改进。

附上参考地址

性能微软 AI Python 人工智能 OpenAI 测试训练模型

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(282) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论