DeepSeek-AI 的 DeepSeek-R1 系列模型,通过强化学习(RL)而非监督微调(SFT)训练,包含 DeepSeek-R1-Zero 和 DeepSeek-R1 以及基于 Llama 和 Qwen 的六款密集模型,表现出色,尤其在数学、编程和推理任务上。