大模型强化学习阶段的后训练在做什么

标签: | 发表时间:2026-05-25 15:01 | 作者:
出处:https://chat.deepseek.com

大模型强化学习阶段的“后训练”,通常是指在模型已经完成预训练(以及可能的监督微调)之后,再通过强化学习进一步优化模型的行为和输出。这个过程的核心目标是:让模型的输出更符合人类的偏好、价值观、安全性要求以及特定任务的目标。

简单来说,预训练让模型学会了“接话”的能力——根据上文预测下一个词;而强化学习后训练则教它“什么话该说、什么话不该说、怎么说更好”。

具体在做什么,可以分解为以下几个关键环节:

  1. 学习“偏好”与“准则”:模型需要理解人类的偏好。研究者会训练一个奖励模型,这个模型的作用就是给大模型的回答打分。这个奖励模型的训练数据,就是大量的人类标注数据——比如,对于同一个问题,人类标注者会对比两个不同回答,选出哪个更好、更安全、更有用。

  2. 通过“试错”优化策略:大模型(此时被视为一个“智能体”)针对一个输入,会尝试生成一个回答。之后,奖励模型会对这个回答打分(给出奖励值)。强化学习算法(最著名的是PPO,近端策略优化)会根据这个奖励值,调整大模型的参数,让它更倾向于生成能获得高奖励的回答,避免生成低奖励的回答。

  3. 平衡“探索”与“守成”:训练过程中,模型不能随心所欲地乱试(可能会生成胡言乱语)。强化学习算法通常会加入一个KL散度惩罚项,强制要求模型的新策略不能离它的“初始版本”(通常是监督微调后的模型)太远。这就像给模型加了一根“狗绳”,防止它在优化过程中彻底走偏,失去基本的语言能力。

  4. 针对特定任务优化:根据最终应用场景,后训练可以有不同的侧重点。例如:

    • 提高有用性:让模型更愿意遵循指令、提供更详细准确的答案。

    • 提高安全性:让模型学会拒绝回答有害、不道德或危险的问题。

    • 提高真实性:减少“幻觉”,让模型在不确定时承认不知道。

    • 对齐特定风格:让模型的回复语气、长度、格式符合产品需求。

一个非常典型的例子就是ChatGPT的训练过程:

  • 第一步:预训练一个基础模型(GPT-3.5/4)。

  • 第二步:监督微调(SFT),用人工写的高质量问答对训练模型学会对话格式。

  • 第三步(这里就是强化学习后训练):使用RLHF(人类反馈强化学习)。具体做法是:

    • 让模型针对大量问题生成多个回答。

    • 人类标注员对这些回答进行排序/打分。

    • 用这些排序数据训练一个奖励模型。

    • 用PPO算法,让模型通过不断生成回答并获取奖励模型反馈来优化自己。

核心价值:没有强化学习后训练,大模型可能只是一个能力很强但不怎么听话的“天才儿童”。而通过这个阶段,模型变得可控、可靠、有用。它解决了预训练模型“学富五车但不懂规矩”的问题。

与其他训练阶段的区别:

  • 预训练:学习语言结构和世界知识(学什么)。

  • 监督微调(SFT):学习对话格式和简单指令(学着怎么回答)。

  • 强化学习后训练:学习价值判断和策略选择(学会判断什么才是好的回答)。

所以,大模型的强化学习后训练,本质上是一个价值观对齐和行为优化的过程,是让通用大模型变成能直接服务用户的生产力工具的关键一步。

相关 [模型 强化学习 阶段] 推荐:

大模型强化学习阶段的后训练在做什么

- -
大模型强化学习阶段的“后训练”,通常是指在模型已经完成预训练(以及可能的监督微调)之后,再通过强化学习进一步优化模型的行为和输出. 这个过程的核心目标是:让模型的输出更符合人类的偏好、价值观、安全性要求以及特定任务的目标. 简单来说,预训练让模型学会了“接话”的能力——根据上文预测下一个词;而强化学习后训练则教它“什么话该说、什么话不该说、怎么说更好”.

浏览器事件模型中捕获阶段、目标阶段、冒泡阶段实例详解

- - SegmentFault 最新的文章
如果对事件大概了解,可能知道有事件冒泡这回事,但是冒泡、捕获、传播这些机制可能还没有深入的研究实践一下,我抽时间整理了一下相关的知识. 本文主要对事件机制一些细节进行讨论,过于基础的事件绑定知识方法没有介绍. 特别少的篇幅关注浏览器兼容问题,毕竟原理了解了,兼容性问题可以自己想办法解决了. 在浏览器相对标准化之前,各个浏览器厂商都是自己实现的事件模型,有的用了冒泡,有的用了捕获,W3C为了兼顾之前的标准,将事件发生定义成如下三个阶段:.

Fix Bug的五个阶段

- Sirius - 酷壳 - CoolShell.cn
下面的文章和《各种流行的编程方式》有异曲同工,请你不要理解错了. 一个非常严重和困难的bug,能够成就一个饱经沧桑深受压力的有经验的专业程序员的职业生涯. 经受这种考验的创伤程度,相当你受到了一次严重的身体伤害,离婚,或是家庭成为的离世. 研究人员在研究了计算机编程心理学后,得出了一个程序员们在解决一个困难的bug时的心路里程.

逆境心理五阶段

- 冬虫夏草 - 科学松鼠会
原作:http://buttersafe.com/2010/05/20/the-five-stages/.

Nginx请求执行阶段

- - 操作系统 - ITeye博客
    Nginx在处理请求时,按照不同的阶段依次处理,常见的阶段如rewrite、access和content依次执行. Nginx中的指令一般只注册在某一个阶段,如echo注册在content阶段,set注册在rewrite阶段,因此set总是在echo之前执行,与书写顺序无关. 特殊的,geo和map指令与处理阶段无关,它们是声明性的.

TCC两阶段补偿型

- - 互联网 - ITeye博客
TCC方案是可能是目前最火的一种柔性事务方案了. 关于TCC(Try-Confirm-Cancel)的概念,最早是由Pat Helland于2007年发表的一篇名为《Life beyond Distributed Transactions:an Apostate’s Opinion》的论文提出. 在该论文中,TCC还是以Tentative-Confirmation-Cancellation命名.

在原神里钓鱼,有人竟然用上了深度强化学习,还把它开源了

- - 机器之心
在游戏圈,你可以没有玩过,但一定听过《原神》. 虽然这是一款口碑两极分化的游戏,但不得不承认《原神》是当前最为火热的游戏之一. 特别是在国外,原神可以说是火的一塌糊涂. 就在今年 9 月,这款从开放公测起便屡次登顶国内外讨论热度和手游吸金榜第一的开放世界冒险游戏更新了版本,添加 / 丰富了地图,并且上线了一款小游戏——钓鱼.

纯编程岗位已完,能做可验证奖励强化学习的都会完

- -
为什么 AI 会先吃掉程序员,而不是产品经理. 如果你还在用职业名判断 AI 风险,先停一下. 姚顺宇在访谈里给过一个反直觉判断:AI 最先高速改变的,不一定是人类觉得简单的工作,而是反馈最清楚的工作. 这个判断落到职业上,最扎眼的例子就是程序员. 过去很多人以为,AI 会先替代那些重复、低门槛、标准化的工作.

账号系统的两阶段登录和三阶段登录

- - idea's blog
简单的账号登录是一阶段登录, 也即用户提供用户名和密码, 然后服务器端验证账号和密码是否正确以决定是否成功登录. 一阶段登录其实安全性是非常危险了, 其危险性就在于这个登录流程涉及到的数据都是静态的, 因为用户名和密码一般不会改变.. 为了在登录流程中引入动态数据, 必须把流程改为两阶段登录: 1, 获取动态临时 secret salt; 2.

漫画:成人的几个阶段

- Summer - 煎蛋
Radult/激进阶段:我能做想要做的. Sadult/悲观阶段:我希望我能做自己想做的. Madult/疯狂阶段:孩子们认为他想做什么就做什么,这简直是扯淡. Deadult/死:这不是我想要的. 漫画:如果将你的宠物放进盒子里会怎样. © 煎蛋 / 随便看看 / 图片托管于又拍网.