大模型(LLMs)强化学习- PPO 面.pdf

举例,模型,答案,表现,过程,计算机与AI
文档页数:3
文档大小:195.41KB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

模型(LLMs)强化学习一一PPO面

一、大语言模型RLHF中的PPO主要分哪些步骤?二、举例描述一下大语言模型的RLHF?三、大语言模型RLHF采样篇3.1什么是PPO中采样过程?3.2介绍一下PPO中采样策略?3.3PPO中采样策略中,如何评估“收益"?

参考

一、大语言模型RLHF中的PPO主要分哪些步骤?

大语言模型RLHF中的PPO分为:

1.采样2. 3.学习

对应的实现逻辑如下:

policy_mode1 = 1oad_mode1(for k in range(20000):采样(生成答案)prompts = sample_prompt()data = respond(policy_model prompts)(计算奖励)rewards = reward_func(reward_model data)孕习(更新参数)for epoch in range(4):policy_model = train(policy_model prompts data rewards)

二、举例描述一下大语言模型的RLHF?

大语言模型的RLHF,实际上是模型先试错再学习的过程.

大语言模型的RLHF好比是:老师与学生的角色

1.我们扮演着老师的角色,给出有趣的问题.模型则会像小学生一样,不断尝试给出答案.2.模型会根据我们给出的问题,写出它觉得正确的答案,但是这些答案不一定是真的答案,需要我们结合正确答案进行打分.如果它表现得好,就会给予它高声赞扬;如果它表现不佳,我们则会给予它耐心的指导和,帮助它不断改进,直到达到令人满意的水平.

三、大语言模型RLHF采样篇

3.1什么是PPO中采样过程?

PPO中采样过程:学生回答问题的过程,是模型根据提示(prompt)输出回答(response)的过程,或者说是模型自行生产训练数据的过程.

Ieg

prompt response请告诉我三种常见的动物. 猫,狗,鹦.如何评价电影《爱乐之城》? 杂陈. 音乐的经典令人赞叹不已,结局却让人感到五味詹姆斯和库里谁更伟大? 他们都很伟大,我无法比较.

3.2介绍一下PPO中采样策略?

PPO中采样工作通过一种策路(policy):policy由两个模型组成,一个叫做演员模型(Actor),另失

演员:我们想要训练出来的大模型.在用PPO训练它之前,它就是RLHF的第一步训练出来的SFT(Supervised Fine-Tuning)model.输入一段上下文,它将输出下-个token的概率分布.

评论家:强化学习的辅助模型,输入一段上下文,它将输出下一个token的收益”.

3.3PPO中采样策略中,如何评估"收益”?

从下一个token开始,模型能够获得的总奖励(浮点数标量).这里说的奖励包括RewardModel给出的奖励.

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:标准资料
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)