通义千问开源32B模型“以小博大”性能比肩DeepSeek

新京报记者罗亦丹编辑胡萌

2025-03-06 15:06

新京报贝壳财经讯（记者罗亦丹）北京时间3月6日凌晨，通义千问在官方公号上发文称，推出最新的推理模型 QwQ-32B。这是一款拥有320亿参数的模型，其性能可与具备6710亿参数（其中370亿被激活）的 DeepSeek-R1媲美。

通义千问表示，强化学习可以显著提高模型的推理能力。例如，DeepSeek-R1 通过整合冷启动数据和多阶段训练，实现了最先进的性能，使其能够进行深度思考和复杂推理。而QwQ-32B突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。

其在文章中展示了在一系列基准测试中与DeepSeek-R1、o1-mini等模型的功能对比，如在测试数学能力的 AIME24 评测集上，以及评估代码能力的LiveCodeBench 中，千问 QwQ-32B 表现与DeepSeek-R1相当，胜于 o1-mini 及相同尺寸的R1 蒸馏模型。

目前，QwQ-32B 已在 Hugging Face 和 ModelScope 开源，并采用了 Apache 2.0 开源协议。

编辑胡萌

校对王心

来阅读我的更多文章吧

罗亦丹

新京报记者