大模型(LLMs)强化学习- PPO 面.pdf

文档页数：3

文档大小：195.41KB

文档格式：pdf

文档分类：计算机与AI

上传会员：标准资料

上传日期：2026-06-04

最后更新：2026-06-04

大模型（LLMs）强化学习一一PPO面

一、大语言模型RLHF中的PPO主要分哪些步骤？二、举例描述一下大语言模型的RLHF？三、大语言模型RLHF采样篇3.1什么是PPO中采样过程？3.2介绍一下PPO中采样策略？3.3PPO中采样策略中，如何评估“收益"？

参考

一、大语言模型RLHF中的PPO主要分哪些步骤？

大语言模型RLHF中的PPO分为：

1.采样2. 3.学习

对应的实现逻辑如下：

policy_mode1 = 1oad_mode1(for k in range(20000):采样（生成答案）prompts = sample_prompt()data = respond(policy_model prompts)（计算奖励）rewards = reward_func(reward_model data)孕习（更新参数）for epoch in range(4):policy_model = train(policy_model prompts data rewards)

二、举例描述一下大语言模型的RLHF？

大语言模型的RLHF，实际上是模型先试错再学习的过程.

大语言模型的RLHF好比是：老师与学生的角色

1.我们扮演着老师的角色，给出有趣的问题.模型则会像小学生一样，不断尝试给出答案.2.模型会根据我们给出的问题，写出它觉得正确的答案，但是这些答案不一定是真的答案，需要我们结合正确答案进行打分.如果它表现得好，就会给予它高声赞扬；如果它表现不佳，我们则会给予它耐心的指导和，帮助它不断改进，直到达到令人满意的水平.

三、大语言模型RLHF采样篇

3.1什么是PPO中采样过程？

PPO中采样过程：学生回答问题的过程，是模型根据提示（prompt）输出回答（response）的过程，或者说是模型自行生产训练数据的过程.

Ieg

prompt response请告诉我三种常见的动物. 猫，狗，鹦.如何评价电影《爱乐之城》？杂陈. 音乐的经典令人赞叹不已，结局却让人感到五味詹姆斯和库里谁更伟大？他们都很伟大，我无法比较.

3.2介绍一下PPO中采样策略？

PPO中采样工作通过一种策路（policy）：policy由两个模型组成，一个叫做演员模型（Actor），另失

演员：我们想要训练出来的大模型.在用PPO训练它之前，它就是RLHF的第一步训练出来的SFT（Supervised Fine-Tuning）model.输入一段上下文，它将输出下-个token的概率分布.

评论家：强化学习的辅助模型，输入一段上下文，它将输出下一个token的收益”.

3.3PPO中采样策略中，如何评估"收益”？

从下一个token开始，模型能够获得的总奖励（浮点数标量）.这里说的奖励包括RewardModel给出的奖励.

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：标准资料

大模型(LLMs)强化学习- PPO 面.pdf

推荐内容/By 规范库

手机扫码、免注册、直接登录