paulwong

DeepSeek背后的数学:深入研究群体相对策略优化(GRPO)

本博客深入探讨了群体相对策略优化(GRPO)背后的数学,GRPO是推动DeepSeek卓越推理能力的核心强化学习算法。我们将分解GRPO的工作原理、其关键组件,以及为什么它是训练高级大型语言模型(LLM)的改变者。

GRPO的基础

GRPO是什么?

群相对策略优化(GRPO)是一种强化学习(RL)算法,专门用于增强大型语言模型(LLM)的推理能力。与传统的RL方法不同,RL方法严重依赖外部评估者(批评者)来指导学习,GRPO通过相互评估响应组来优化模型。这种方法可以实现更有效的培训,使GRPO成为需要复杂解决问题和长思维链的推理任务的理想选择。

为什么是GRPO?

传统的RL方法,如近端策略优化(PPO),在应用于LLM中的推理任务时面临重大挑战:

对批评家模式的依赖

  • PPO需要一个单独的批评模型来估计每个响应的值,这使内存和计算要求翻倍。
  • 培训评论家很复杂,容易出错,特别是对于具有主观或细微评估的任务。

高计算成本

  • RL管道通常需要大量的计算资源来迭代评估和优化响应。
  • 将这些方法扩展到大型法学硕士会加剧这些成本。

可扩展性问题

  • 绝对奖励评估与各种任务作斗争,使其难以跨推理领域进行概括。

GRPO如何应对这些挑战

  • 无批评优化:GRPO通过比较组内的响应来消除对批评模型的需求,大大降低了计算开销。
  • 相对评估:GRPO不使用外部评估员,而是使用组动力学来评估响应相对于同一批次中其他响应的表现如何。
  • 高效培训:通过关注基于组的优势,GRPO简化了奖励估算过程,使其对大型模型更快、更具可扩展性。

关键思想

GRPO的核心是相对评价的概念:

  • 对于每个输入查询,模型都会生成一组潜在响应。
  • 这些回答是根据它们与小组中其他人的比较来评分的,而不是单独评估。
  • 响应的优势反映了相对于小组的平均表现来说,它有多好或差。

这种方法消除了对单独批评的需要,使GRPO既高效又强大。通过促进群体内部的竞争,GRPO推动该模型不断提高其推理能力。正是这种创新推动了DeepSeek在推理任务中取得卓越结果的能力。

了解GRPO目标功能

组相对策略优化(GRPO)中的目标函数定义了模型如何学习改进其策略,从而推动其生成高质量响应的能力。让我们一步一步地分解它。

GRPO目标函数

方程来自论文,解释是在GPT-4o的帮助下创建的

用简单的术语理解GRPO目标函数

GRPO(组相对策略优化)目标函数就像一个教模型的配方,通过比较自己的响应和逐步改进来更好地生成答案。让我们把它分解成一个易于理解的解释:

目标

想象一下,你正在教一群学生解决一个数学问题。与其只告诉他们谁得到了正确或错误的答案,不如比较他们所有的答案,以找出谁做得最好(以及为什么)。然后,你通过奖励更好的方法和改进较弱的方法来帮助他们学习。这正是GRPO所做的——只是它教人工智能模型,而不是学生。

分步分解

第1步:从查询开始

  • 从训练数据集P(Q)中选择一个查询(q)
    示例:假设查询是“8 + 5的总和是多少?”

第2步:生成一组响应

  • 模型对查询生成一组GGG响应。
    示例:模型生成以下响应:
  • O1:“答案是13。”
  • O2:“十三。”
  • O3:“现在是12。”
  • O4:“总和是13。”

第3步:计算每个响应的奖励

什么是奖励?

  • 奖励通过量化模型的响应质量来指导模型的学习。

GRPO中的奖励类型

  • 准确性奖励:基于答案的正确性(例如,解决数学问题)。
  • 格式奖励:确保响应符合结构准则(例如,<think>标签中包含的推理)。
  • 语言一致性奖励:惩罚语言混合或不相干的格式。

根据每个响应的好程度,为每个响应分配奖励(ri)。例如,奖励可能取决于:

准确性:答案正确吗?

格式:响应结构良好吗?
示例

  • r1=1.0(正确且格式良好)。
  • r2=0.9(正确但不那么正式)。
  • r3=0.0(错误答案)。
  • r4=1.0(正确且格式良好)。

第4步:比较回复(群体优势)

  • 计算每个响应相对于组的优势(Ai):
方程来自论文,解释是在GPT-4o的帮助下创建的

用简单的方式,你可以这样理解它

方程来自论文,解释是在GPT-4o的帮助下创建的
  • 比小组平均水平更好的回复获得正分,而更差的回复获得负分。
  • 鼓励小组内部的竞争,推动模型产生更好的响应。

第5步:使用剪切更新策略

方程来自论文,解释是在GPT-4o的帮助下创建的
  • 示例:如果新策略开始为o1分配过多的概率,剪切可确保它不会过度强调此响应。
  • 即使在推理等复杂任务中,也能实现稳定可靠的策略优化。

第6步:用KL Divergence惩罚偏差

方程来自论文,解释是在GPT-4o的帮助下创建的

把它全部放在一起

GRPO目标的工作原理如下:

  1. 为查询生成一组响应
  2. 根据预定义的标准(例如准确性、格式)计算每个响应的奖励
  3. 比较组内的反应,以计算其相对优势(AiA_iAi)。
  4. 更新政策,以支持具有更高优势的响应,确保剪切的稳定性。
  5. 定期更新,以防止模型偏离其基线太远。

为什么GRPO有效

  • 无需批评:GRPO依靠组比较,降低了计算成本,避免了对单独评估员的需要。
  • 稳定学习:剪切和KL正则确保模型稳步改进,没有剧烈波动。
  • 高效培训:通过关注相对绩效,GRPO是推理等任务的理想选择,因为绝对得分很难。

现实生活中的类比

想象一下,一群学生在解决问题。老师不是单独给每个学生打分,而是学生在自己之间比较他们的答案。那些有更好答案的人会得到鼓励,而其他人则从错误中学习。随着时间的推移,该小组集体改进,变得更加准确和一致。GRPO将这一原则应用于训练人工智能模型,使它们能够有效和高效地学习。

GRPO和PPO的比较

GRPO在行动:DeepSeek的成功

GRPO通过为推理任务提供高效和可扩展的培训,推动了DeepSeek的卓越性能。以下是它如何转化为成功:

  1. 增强推理:GRPO允许DeepSeek-R1-Zero在AIME 2024上获得71.0%的aPass@1得分,在多数票下上升到86.7%。在解决数学和逻辑问题方面,它与OpenAI等专有模型相媲美。
  2. 新兴能力:通过GRPO,DeepSeek模型发展了高级推理行为,如自我验证反思长思维链,这对解决复杂任务至关重要。
  3. 可扩展性:GRPO的基于组的优化消除了对批判模型的需求,减少了计算开销,并实现了大规模的培训。
  4. 蒸馏成功:从GRPO训练的检查站蒸馏出来的较小的模型保留了很高的推理能力,使人工智能更容易获得和具有成本效益。

通过专注于组内的相对性能,GRPO使DeepSeek能够在推理、长上下文理解和一般人工智能任务方面设定新的基准,同时保持效率和可扩展性

参考:https://arxiv.org/abs/2501.12948

posted on 2025-02-08 00:13 paulwong 阅读(140) 评论(0)  编辑  收藏 所属分类: AI-DEEPSEEK


只有注册用户登录后才能发表评论。


网站导航: