大模型强化学习阶段的后训练在做什么
大模型强化学习阶段的“后训练”,通常是指在模型已经完成预训练(以及可能的监督微调)之后,再通过强化学习进一步优化模型的行为和输出。这个过程的核心目标是:让模型的输出更符合人类的偏好、价值观、安全性要求以及特定任务的目标。
简单来说,预训练让模型学会了“接话”的能力——根据上文预测下一个词;而强化学习后训练则教它“什么话该说、什么话不该说、怎么说更好”。
具体在做什么,可以分解为以下几个关键环节:
-
学习“偏好”与“准则”:模型需要理解人类的偏好。研究者会训练一个奖励模型,这个模型的作用就是给大模型的回答打分。这个奖励模型的训练数据,就是大量的人类标注数据——比如,对于同一个问题,人类标注者会对比两个不同回答,选出哪个更好、更安全、更有用。
-
通过“试错”优化策略:大模型(此时被视为一个“智能体”)针对一个输入,会尝试生成一个回答。之后,奖励模型会对这个回答打分(给出奖励值)。强化学习算法(最著名的是PPO,近端策略优化)会根据这个奖励值,调整大模型的参数,让它更倾向于生成能获得高奖励的回答,避免生成低奖励的回答。
-
平衡“探索”与“守成”:训练过程中,模型不能随心所欲地乱试(可能会生成胡言乱语)。强化学习算法通常会加入一个KL散度惩罚项,强制要求模型的新策略不能离它的“初始版本”(通常是监督微调后的模型)太远。这就像给模型加了一根“狗绳”,防止它在优化过程中彻底走偏,失去基本的语言能力。
-
针对特定任务优化:根据最终应用场景,后训练可以有不同的侧重点。例如:
-
提高有用性:让模型更愿意遵循指令、提供更详细准确的答案。
-
提高安全性:让模型学会拒绝回答有害、不道德或危险的问题。
-
提高真实性:减少“幻觉”,让模型在不确定时承认不知道。
-
对齐特定风格:让模型的回复语气、长度、格式符合产品需求。
-
一个非常典型的例子就是ChatGPT的训练过程:
-
第一步:预训练一个基础模型(GPT-3.5/4)。
-
第二步:监督微调(SFT),用人工写的高质量问答对训练模型学会对话格式。
-
第三步(这里就是强化学习后训练):使用RLHF(人类反馈强化学习)。具体做法是:
-
让模型针对大量问题生成多个回答。
-
人类标注员对这些回答进行排序/打分。
-
用这些排序数据训练一个奖励模型。
-
用PPO算法,让模型通过不断生成回答并获取奖励模型反馈来优化自己。
-
核心价值:没有强化学习后训练,大模型可能只是一个能力很强但不怎么听话的“天才儿童”。而通过这个阶段,模型变得可控、可靠、有用。它解决了预训练模型“学富五车但不懂规矩”的问题。
与其他训练阶段的区别:
-
预训练:学习语言结构和世界知识(学什么)。
-
监督微调(SFT):学习对话格式和简单指令(学着怎么回答)。
-
强化学习后训练:学习价值判断和策略选择(学会判断什么才是好的回答)。
所以,大模型的强化学习后训练,本质上是一个价值观对齐和行为优化的过程,是让通用大模型变成能直接服务用户的生产力工具的关键一步。