大模型(LLMs)进阶面.pdf

句子,学习,标题,模型,训练,计算机与AI
文档页数:12
文档大小:850.65KB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

模型(LLMs)进阶面

一、什么是生成式大模型?二、大模型是怎么让生成的文本丰富而不单调的呢?三、LLMs复读机问题3.1什么是LLMs复读机问题?3.2为什么会出现LLMs复读机问题?3.3如何缓解LLMs复读机问题?3.3.1 Unlikelihood Training3.3.2引1入噪声3.3.3 Repetition Penalty3.3.4 Contrastive Search3.3.5 Beam Search3.3.6 TopK sampling3.3.7 Nucleus sampler3.3.8 Temperature3.3.9 No repeat ngram size3.3.10重复率指标检测3.3.11后处理和过滤3.3.12人工干预和控制

四、llama 系列问题4.1llama输入句子长度理论上可以无限长吗?五、什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选?六、各个专业领域是否需要各自的大模型来服务?七、如何让大模型处理更长的文本?

致谢

一、什么是生成式大模型?

生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类深度学习模型.相比普通深度学习模型,主要有两点不同:

2.可通过条件或上下文引导,产生生成式的内容(所调的promptengineer就是由此而来). 1.模型参数量更大,参数量都在Bilion级别;

二、大模型是怎么让生成的文本丰富而不单调的呢?

1.从训练角度来看:

a.基于Transformer的模型参数量巨大,有助于模型学习到多样化的语言模式与结构;b.各种模型微调技术的出现,例如P-Tuning、Lora,让大模型微调成本更低,也可以让模型在垂直领域有更强的生成能力:c.在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;

2.从推理角度来看:

a.基于Transformer的模型可以通过引I入各种参数与策路,例如temperature,nucleus samlper来改变每次生成的内容.

三、LLMs复读机问题

3.1什么是LLMs复读机问题?

LLMs复读机问题:

字符级别重复,指大模型针对一个字或一个词重复不断的生成

steckdose steckdose.*: 例如在电商翻译场景上,会出现*steckdose steckdose steckdose steckdose steckdose steckdose

语句级别重复,大模型针对一句话重复不断的生成

例如在多模态大模型图片理解上,生成的结果可能会不断重复图片的部分内容,比如这是一个杯子,这是一个杯子..

章节级别重复,多次相同的prompt输出完全相同或十分近似的内容,没有一点创新性的内容比如你让大模型给你写一篇关于春天的小作文,结果发现大模型的生成结果干篇一律,甚至近乎一摸一样.

大模型针对不同的prompt也可能会生成类似的内容,且有效信息很少、信息偏低

3.2为什么会出现LLMs复读机问题?

1.数据偏差:大型语言模型通常是通过预训练阶段使用大规模无标签数据进行训练的.如果训练数据中存在大量的重复文本或者某些特定的句子或短语出现频率较高,模型在生成文本时可能会倾向于复制这些常见的模式.

2.训练目标的限制:大型语言模型的训练通常是基于自监督学习的方法,通过预测下一个词或掩盖词来学习语言模型.这样的训练目标可能使得模型更倾向于生成与输入相似的文本,导致复读机问题的出现.

3.缺乏多样性的训练数据:虽然大型语言模型可以处理大规模的数据,但如果训练数据中缺乏多样性的语言表达和语境,模型可能无法学习到足够的多样性和创造性,导致复读机问题的出现.4.模型结构和参数设置:大型语言模型的结构和参数设置也可能对复读机问题产生影响.例如,模型 的注意力机制和生成策略可能导致模型更倾向于复制输入的文本.5.从inductionhead[1]机制的影响角度:也就是模型会倾向于从前面已经预测的word里面挑选最匹配的词;在翻译上,由于input和output的天然差异性,你会发现容易出现重复的都是一些复杂度perplexity比较高的文本:也就是说input的句式越不常见,本身重复度越高,翻译结果重复的可能性也越高.

注:我们分别以flores-101通用文本和电商标题文本做了尝试,后者出现重复的概率是前者的20倍以上.

1.从信息的角度分析.“在模型生成采样时,我们就应该只采样那些与条件对应概率接近的字符” [2].但是我更理解为信息淹没;比如电商标题,作为一种语句连贯性很弱、基本是词序堆叠的文本,它的信息无疑是很高的,下一个词预测时,概率后验基本上很难预测出来,Softmax的分布也倾向于平稳,也就是说模型也预测不出来下一个词应该是什么.因此模型会倾向从前面的word里面挑选.无论是专业翻译大模型M2M、NLLB还是通用语言模型ChatGPT,LLAMA等,的TSNE二维分布基本一致:也就是你添加了LLLL后,文本语义基本没有变化

另一点,就是为什么会一直是一个词L的反复重复?因为当前面t-1个词的分布趋于稳定,t以及t1后面重复出现的L词的分布基本会沿着前面t-1个词的TSNE二维分布均匀铺开,也就是我们常说的各向异性,虽 然生成的数量长了,但是的分布几乎不影响.这一点很值得探索,对应的解决方案也相当大力破巧

3.3如何缓解LLMs复读机问题?

3.3.1 UnlikelihoodTraining

1.思路:在训练中加入对重复词的抑制来减少重复输出:

2.介绍

式中集合C代表上文生成的token,本身likelihoodtrainingloss是要促使模型学习到原标签中自然的语言逻辑,而修改后的loss不仅要促进模型学习到真实标签的语言自然性,也要通过unlikelihoodloss抑制模型,使其尽量不生成集合C中的token.一般对于生成式任务,只需要在原模型基础上加入unlikelihoodtraining进行sentence级别finetune即可,不需要通过token级别的unlikelihood和likelihoodloss叠加训练.(如果进入叠加训练虽然会降低重复率,但是句子困感度会升高,准确率会 下降)

[ token级unlikelihood training loss

C(pθ(-lx<t) C log(1-pe(c|c1.o)即可开启重复惩罚因子

3.3.4ContrastiveSearch

1.动机:ContrastiveSearch方法是为了解决原先解码方法,例如BeamSearch,在采用最大化生成方式解码时出现解码退化的问题即生成的文本不自然的,并包含文本重复而提出的一种解决方案2.思路:对比loss以及对比搜索两个创新点,从模型训练和模型推理层面缓解了生成式模型重复以及 单调问题.

其中对比loss通过在原loss基础上添加对比loss,即对比token间相似度的方式去解决生成式模型重复单调问题,公式如下:

其中

就是余弦相似度,下图给出了训练前后token间的相似度:

对比训练前后token相似度

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:标准资料
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)