当前位置: 首页>学术指导> 正文

LLM/Qwen2.5-Math-72B-Instruct数学模型

2025-07-2846

code地址:

主要被设计用于通过CoT或TIR的方式解中英数学题,不推荐在其他任务上使用该系列模型。

0简介

系列,包括基础模型/7B/72B,指令微调模型/7B/72B-Instruct和数学奖励模型。的整体性能超越了Qwen2-Math-72B-Instruct和GPT4-o,甚至是非常小的专业模型如也能在与大型语言模型的竞争中取得高度竞争力的表现。

:1.5B,7B,以及72B。用于数学的相比其前身Qwen2-Math有了实质性的改进。

在更大规模的数学相关数据上进行了预训练包括由Qwen2-Math生成的合成数据。

此外增加了对中文的支持,支持中文和英文。

并整合了多种推理方法,通过赋予其进行CoT(ChainofThought)、PoT(ProgramofThought)和TIR(Tool-IntegratedReasoning)的能力来加强其推理能力。相较于Qwen2-Math只支持使用思维链(CoT)解答英文数学题目,系列扩展为同时支持使用思维链(CoT)和工具集成推理(TIR)解决中英双语的数学题。虽然CoT在增强LLM的推理能力方面发挥着重要作用,但它在实现计算精度和处理复杂的数学或算法推理任务方面依然面临挑战,例如寻找二次方程的根或计算矩阵的特征值等等。而TIR(如使用python解释器)可以进一步提高模型在精确计算、符号操作和算法操作方面的能力。/7B/72B-Instruct使用TIR在MATH基准测试中分别达到79.7、85.3和87.8的高分。

Qwen2-Math和的整体训练流程如上图所示。

1模型基础模型/7B/72B

Qwen2-Math和的整体训练流程如上图所示。在训练完Qwen2-Math基础模型后,通过三个主要途径将其进一步升级为模型:

1)利用Qwen2-Math-72B-Instruct模型合成更多高质量的数学预训练数据。--在更大规模的数学相关数据上进行了预训练,包括由Qwen2-Math生成的合成数据。

2)通过多轮召回从网络资源、书籍和代码中获取更多高质量的数学数据,尤其是中文数学数据。

3)利用系列基础模型进行参数初始化,它们相比Qwen2有更强大的语言理解、代码生成和文本推理能力。

构建QwenMathCorpusv2预训练数据集,并保持上下文长度为4K。与用于Qwen2-Math预训练的QwenMathCorpusv1相比,QwenMathCorpusv2的总token数量从700B增加到超过1T。

所有评估都使用few-shotCoT的方式进行测试。

与/7B/72B相比,/7B/72B在各项测试中均取得了显著提升,例如/7B/72B在MATH评测集中分别提升了5.4、5.0、6.3分,在GaoKaoMathQA中分别提升了3.4、12.2、19.8分。

指令微调模型/7B/72B

与Qwen2-Math-Instruct类似,基于训练了一个数学专用奖励模型。此RM通过拒绝抽样构建SFT数据,也用于SFT之后的GRPO强化学习。以在拒绝抽样期间进一步提高解题过程的质量。

进一步为后训练引入中文和英文的TIR数据和CoT数据。并借助72B模型的合成预训练和监督微调数据。

2性能对比

实验结果表明:

借助72B模型的合成预训练和监督微调数据,在性能上超越Qwen2-Math-Instruct72B。在CoT和TIR设置下,其MATH分数分别达到83.6和85.3。模型在英文和中文上分别比上一代Qwen2-Math-72B-Instruct模型平均高出4.4分和6.1分,成为目前最好的开源数学模型。

旗舰模型的表现显著优于开源模型和领先的闭源模型(例如GPT-4o、)。在RM@8的TIR设置下,在MATH上取得了92.9的高分。

即使是最小的1.5B模型,在使用Python解释器时也能达到80左右的数学分数,优于该领域当前的大多数模型。

相比之下,在贪婪解码CoT模式下解决了9道题,在TIR模式下解决了12道题。在RM的帮助下,甚至可以解决多达21道题,进一步展现了出色的数学解题能力。

零样本设置基准测试的Greedy、Maj@8和RM@8性能,而多项选择基准测试(包括多项选择题)采用5样本设置。

3Demo

在Huggingface和Modelscope中提供了一个多模态的数学Demo。该WebUI利用Qwen2-VL进行OCR并用Qwen2-Math进行数学推理,可以直接输入数学和算术的图片、文本或者草图。

一个支持TIR模式的Demo,它允许用户在本地执行代码以体验的TIR能力。

3总结

(1)在预训练阶段大量使用来自Qwen2-Math的合成数学数据。

(2)在后训练阶段迭代生成微调数据,并在奖励模型的指导下进行强化训练。

(3)支持双语(英语和中文)解题,以及思路链和工具集成推理能力。

参考文献:

Finetuning:ChatLearn,Llama-Factory,Axolotl,Firefly,Swift,XTuner,Unsloth,LigerKernel

Quantization:AutoGPTQ,AutoAWQ,NeuralCompressor

Deployment:vLLM,SGL,SkyPilot,TensorRT-LLM,OpenVino,TGI

APIPlatforms:Together,Fireworks,OpenRouter

LocalRun:MLX,,Ollama,LMStudio,Jan

AgentandRAGFrameworks:Dify,LlamaIndex,CrewAI

Evaluation:LMSys,OpenCompass,OpenLLMLeaderboard

ModelTraining:ArceeAI,Sailor,Dolphin,Openbuddy

;mid=2247485078idx=1sn=e0ad68925c7a16613cfaa23f018ae17bchksm=c3729381f4051a97c817a11ffc5e5ff6617ed7341f26dd5f8290e22cd7ba1ba68fe075790030scene=178cur_album_id=3489502370692579331#rd

《完》

版权所有©Copyright © 2022-2030 研界探索者

备案号:新ICP备14003612号

网站地图