老婆饼里没有老婆，RLHF里也没有真正的RL

2025-09-11

机器之心报道

老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF里也没有真正的RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校副教授AtlasWang分享了这样一个观点。

整篇文章讨论了几个有趣的问题：

1.RLHF（及相关方法）与经典RL有何不同？

2.为什么这些方法实际上无法给出LLM真实目标或意图？

3.为什么没有人大规模地为LLM做「真正的RL」？

4.现有的最接近给LLM一个「目标」的方法是什么？

5.没有「目标驱动」的LLM的后果是什么？

通过了解这些细微差别，我们可以清楚地知道LLM能做什么、不能做什么，以及为什么。

谷歌DeepMind首席科学家DennyZhou转发该文章时评价说，「对于任何有RL知识背景的人来说，（文章中的观点）是显而易见的。但对于新人来说，这是一份很好的介绍。」

区分RLHF和经典强化学习

什么是经典强化学习？在经典强化学习设置中，你有：

在环境中采取行动的智能体。

环境会根据智能体的行动改变状态。

智能体的行动会受到奖励或惩罚，目的是在多个步骤中实现长期累积奖励的最大化。

主要特征：持续或偶发交互。智能体探索多种状态、做出决策、观察奖励，并在一个连续的循环中调整其策略。

RLHF是一种使用根据人类偏好数据训练的奖励模型来完善模型输出的工作流。常见流程包括：

监督微调（SFT）：首先在高质量数据上训练或微调基础语言模型。

奖励模型训练：收集成对的输出结果，询问人类更喜欢哪一个，然后训练一个「奖励模型」，以接近人类的判断。

策略优化：使用类似强化学习的算法（通常为PPO，即「近端策略优化」）来调整LLM的参数，使其产生奖励模型所喜欢的输出结果。

与传统RL不同的是，RLHF中的「环境」基本上是一个单步文本生成过程和一个静态奖励模型——这其中没有扩展循环或持续变化的状态。

为什么RLHF（及相关方法）不是真正的RL？

大多离线或半离线。奖励模型通常在人类标签数据上进行离线训练，然后用于更新LLM的策略。LLM在线调整策略时，并没有实时探索连续的环境循环。

缺乏基于环境的长期（Long-Horizon）目标。经典的RL智能体会追踪多个状态下的长期回报。相比之下，基于RLHF的LLM训练侧重于根据人类偏好调整即时文本输出。LLM并没有在一个动态环境中导航多个时间步骤。

表面约束与真正的内部目标。RLHF可以有效地影响某些输出的概率——引导模型远离不受欢迎的文本。但模型内部并没有形成产生这些输出的「愿望」或「欲望」；它仍然是一个生成下一个token的统计系统。

请记住，不管是RLHF、SFT还是其他什么，LLM都不是为了真正的目标或意图而训练的！LLM的核心是根据给定上下文预测下一个token。它们的「动机」纯粹是最大限度地提高下一个token的正确率（由训练数据和任何后续微调信号确定）。这个过程并不存在主观上的愿望或意图。我们常说AlphaZero「想要」在国际象棋中获胜，但这只是一种方便的简单说法。从内部来说，AlphaZero是在最大化数学奖励函数——没有任何感觉上的欲望。同样，经过RLHF调整的LLM也在最大化对齐奖励信号，而没有内心的渴望状态。

如何？

亚利桑那州立大学计算机科学教授SubbaraoKambhampati指出，「RLHF」有点名不副实，因为它将从人类判断中学习偏好或奖励模型（在概念上更接近于逆强化学习，即IRL）与一步或几步策略优化相结合，而不是经典RL中典型的长期迭代交互。

IRL：在经典表述中，智能体通过观察专家在动态环境中的演示来推断奖励函数。相比之下，RLHF通常收集静态的成对比较（例如，「你更喜欢这两个模型输出中的哪一个？」），并训练一个奖励模型来模仿人类的偏好。在不断演化的环境中，没有扩展的多步骤专家轨迹。

RL中的偏好学习：在当前的深度强化学习中，有一些方法可以从轨迹rollout的成对比较中学习奖励函数（例如，「你更喜欢机器人步行者的哪种步态？」）。然而，这些方法往往存在样本复杂度高的问题（例如，需要多次询问人类），因此许多研究论文都采用了在受控任务中模拟人类反应的方法。

CoT、PRM或多智能体工作流有助于解决这个问题吗？

基于流程的奖励模型和思维链

这就是「真正的RL」吗？并非如此。

因此，虽然CoT/PRM会给人一种多步骤RL的错觉，因为你会对中间步骤进行奖励或惩罚，但实际上，它仍然相当于对单一步骤（文本生成和推理）进行离线或近似离线的策略调整，而不是经典RL的持续智能体-环境循环。

多智能体工作流也不会神奇地创建意图

你可以在工作流中协调多个LLM（例如，「系统A生成计划，系统B批改计划，系统C完善计划」），但从内部来看，每个LLM仍然是根据下一个token的概率生成文本。尽管这样的多智能体设置可以表现出看起来协调或有目的的涌现行为，但它并没有赋予任何单个模型内在或秉持的目标。

因此，多智能体协调可以产生非常有趣的新兴任务解决能力，但LLM本身仍然不会产生「我想要这个结果」的动机。

为什么至今还没有人用「真正的RL」训练LLM？

因为太贵了！大规模模型的经典RL需要一个稳定、交互式的环境，外加大量计算来运行重复的episode。每个训练周期的前向传递次数对于今天的十亿参数LLM来说过于昂贵。

缺乏环境定义。文本生成并非天然的「状态-动作转换」环境。我们可以尝试将其包装成类似游戏的模拟环境，但这样就必须为多步骤文本交互定义奖励结构，而这并非易事。

性能已经足够好了。在许多使用案例中，RLHF或DPO（直接偏好优化）已经能产生足够好的对齐效果。实事求是地说，团队会坚持使用更简单的离线方法，而不是建立一个复杂的RL管道，以巨大的成本换取微不足道的收益。

最接近给LLM一个「目标」的现有方法是什么？

在我看来，与「给LLM一个目标」最接近的方法是使用提示工程或将多个LLM提示串联成一个循环来构建一个元系统或「智能体」。像Auto-GPT或BabyAGI这样的工具试图模拟一个智能体，它能：

接收自然语言目标（如「研究X，然后制定计划」）。

反复计划、推理和提示自己。

评估进展并完善计划。

然而，所有这些「目标保持」都是在系统层面，在提示或链接逻辑中协调进行的，而不是从LLM的内部动机状态出发。LLM本身仍然是被动地对提示做出反应，缺乏内在的欲望。

LLM没有「真正目标」的后果

简化的对齐（在某些方面）。由于LLM没有真正追逐个体目标，它们不太可能「绕过」限制或自主计划非法行为。对齐通常相当于设置正确的提示约束和微调，将其推向可接受的产出。Anthropic最近的博客与这一观点有关（参见《震惊！Claude伪对齐率竟能高达78％，Anthropic137页长论文自揭短》）

更难委派开放式任务。如果我们希望AI能够自发地发现新问题，积极收集资源，并坚持数月来解决这些问题，我们就需要一个具有持续内驱力的系统——类似于真正的RL智能体或高级规划系统。目前的LLM无法以这种方式实现真正的自我启动。

明确时间跨度、目标、奖励和行动空间

单步或几步方法（如RLHF或DPO）与「真正的」RL的关键区别在于时间跨度：

长期优化：在经典RL中，智能体会对多个步骤的累积奖励进行优化，形成类似于「目标」的东西。奖励模型与行动空间相结合，可驱动在动态环境中塑造多步骤行为的策略。

此外，RL通常假定有一个定义明确的行动空间（例如，将游戏棋子向上/向下/向左/向右移动）。而在LLM微调中，「动作」的概念是模糊的，通常会被直接参数更新或生成token所取代。增强提示，甚至只是从固定词汇中生成token，都可以被视为「动作」，而「环境」则是LLM的内部状态。然而，这是对RL循环的非标准或某种不寻常的重新解释。

另一个专家澄清的问题是RL中奖励和目标之间的区别。原则上，RL「奖励」是指导智能体学习过程的信号，而不总是明确的最终目标。如果奖励稀少（仅在成功episode结束时提供），智能体的实际「目标」可能看起来是「达到成功条件」。然而，在实践中，好的RL设计通常会使用密集的奖励信号来引导中间状态，从而帮助智能体更有效地学习。

对于LLM而言，「目标」的概念意味着对某些目标的持续、多步骤的追求。由于RLHF通常是在单步或几步过程中进行的，因此该模型从未真正形成长期目标的内部表征。它只是根据奖励模型或偏好函数来优化即时文本输出。

后记

RLHF、DPO、宪法AI（ConstitutionalAI）和其他受RL启发的微调方法对于使LLM更加一致和有用大有裨益。它们让我们能够利用人类的偏好来塑造输出，减少有毒内容，并引导LLM响应的风格。

然而，这些技术并不能为LLM提供真正的长期目标、内部动机或经典RL意义上的「意图」。LLM仍然是一个复杂的下一个token预测器，而不是一个自主智能体。

为什么这一切都很重要？

从业者应该意识到这些局限性，不要高估LLM的自主性。

政策制定者和伦理学家应该认识到，LLM不可能自发地策划或撒谎来达到隐藏的目的，除非被提示指引去模仿这种行为。

反过来说，如果未来的系统真的结合了具有大规模计算和动态环境的「真正RL」，我们可能会看到更多类似智能体的突发行为——这就会引发新的调整和安全问题。

未来方向？

更高的样本复杂度：一个经常出现的限制因素是，基于偏好的学习可能需要大量的人类token比较，尤其是当任务变得越来越复杂时。研究人员通常采用模拟人的判断来进行RL实验，但这也带来了新的问题，即这些模拟器如何忠实地模拟真实的人类偏好。

扩展到长期任务：许多专家怀疑，短期输出的成对比较能否直接扩展到更复杂的多步骤任务。使用LLM进行真正的多步骤RL需要一个环境，在这个环境中，模型可以进行探索、获得中间奖励并进行迭代——而这在目前是非常昂贵的，也无法大规模广泛实施。

最后，虽然RLHF、DPO和相关方法提供了一种实用的方法，可以在短期环境中使LLM与人类偏好保持一致，但它们无法赋予LLM真正、持久的目标或意图。这些方法也只是与经典的RL或IRL范式略有对应。未来的系统若能在真正的多步骤RL循环中使用LLM，就能解锁更多自主的、类似智能体的行为，但同时也会引发新的安全和一致性问题。

上一篇：1982年高考题：缩句：小丽的妈妈穿着裙子的样子真美啊！下一篇：12月10日 (7)