近期,科技界传来一则令人振奋的消息:复旦大学联合上海人工智能实验室在数学和复杂推理领域取得了重大突破,他们成功开发出了一种名为MCTSr的算法,使得小型语言模型(LLM)在数学基准测试上的表现与前沿模型相媲美。这一成果不仅验证了传说中的“Q*”算法的存在,更为大型语言模型在逻辑决策和数学等领域的应用铺平了道路。

传说中的“Q*”算法现世

“Q*”算法,一个在OpenAI内部实现大模型数学和复杂推理重大突破的神秘算法,长久以来一直被科技界所传颂。然而,它的真实面目一直未被揭晓,直到复旦大学和上海人工智能实验室的这篇论文——《LLaMa-3 8B使用蒙特卡洛树自我优化获取GPT-4级别的数学奥林匹克解题方法:一份技术报告》的发表。

MCTSr算法:结合蒙特卡洛树搜索与LLM

这项研究的核心是将大型语言模型(LLM)与蒙特卡罗树搜索(MCTS)算法结合,以提高LLM在复杂数学推理任务中的性能。MCTSr算法通过创新的UCB公式和动态剪枝策略,优化了决策框架,显著提高了模型在数学问题解决上的成功率。

实验结果:接近GPT-4的表现

实验表明,在GSM8K、GSM Hard、MATH等数据集上,使用MCTSr算法的LLaMa-3 8B模型在解决数学问题上的成功率显著提高,尤其是在奥林匹克级别的数学竞赛题目上,接近了GPT-4的表现。

未来展望:持续优化与广泛应用

虽然MCTSr算法目前还处于初级阶段,但其在更广泛场景下的适用性有待进一步探索。随着算法的持续优化,我们有理由相信,它将为逻辑决策和数学等领域的应用带来革命性的影响。

结语

这项研究不仅证实了结合MCTS和LLM能够增强复杂推理能力,更为未来的人工智能发展提供了新的思路和方向。我们期待着MCTSr算法与更多开源模型的结合,以及它在实际应用中展现出的巨大潜力。

想了解更多关于MCTSr算法的详细实现方法和评估,请访问论文原文:https://arxiv.org/pdf/2406.07394

本文作者:opencat;来源:AI寒武纪;原文标题:《重磅!复旦大学 联合上海人工智能实验室初步实现传说中的“Q”算法》。*

风险提示及免责条款:市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。