大模型校招面试题.pdf

对模型,缺点,自我介绍,训练,面试题,计算机与AI
文档页数:11
文档大小:552.33KB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

大模型校招大厂面试题

阿里大模型算法校招面试题(一)

1自我介绍

在自我介绍环节,我清晰地阐述了个人基本信息、教有背景、工作经历和技能特长,展示了 自信和沟通能力.

2技术问题回答

2.1self-attention的计算方式?

2.2说一下transformer的模型架构和细节?

2.3 pre normalization 和 post normalization layer norm,Batch norm

Layer Norm篇

Layer Norm 的计算公式:

beta:可训练的再偏移参数

gamma:可训练的再缩放参数

Post LN:

位置:layernorm在残差链接之后缺点:PostLN在深层的梯度范式逐渐增大,导致使用post-LN的深层transformer容易出现训练不稳定的间题

Pre-LN:

位置:layernorm在残差链接中优点:相比于Post-LN,PreLN在深层的梯度范式近似相等,所以使用Pre-LN的深层transformer训练更稳定,可以缓解训练不稳定问题缺点:相比于Post-LN,Pre-LN的模型效果略差

Sandwich-LN:

位置:在pre-LN的基础上,额外插入了一个layer norm优点:Cogview用来避免值爆炸的问题缺点:训练不稳定,可能会导致训练崩溃.

Layer normalization对比篇

模型 normalizationGPT3 Pre layer NormLLaMA PreRMS Normbaichuan Pre RMS NormChatGLM-6B PostDeepNormChatGLM2-6B PostRMS NormBloom Pre layer NormFalcon Pre layer Norm

BLOOM在embedding层后添加layer normalization,有利于提升训练稳定性:但可能会带来很大的性能损失

2.4BART、lama、gpt、t5、palm等主流模型异同点?

BART (bi Encodercasual Decoder,类bert 的方法预训练)T5 (EncoderDecoder,text2text预训练)GPT(Decoder 主打I zero-shot) GLM(mask的输入部分是双向注意力,在生成预测的是单向注意力)

目前主流的开源模型体系分三种:

第一种:prefix Decoder系介绍:输入双向注意力,输出单向注意力 代表模型:ChatGLM、ChatGLM2、U-PaLM第二种:causal Decoder 系介绍:从左到右的单向注意力第三种:Encoder-Decoder 代表模型:LLaMA-7B、LLaMa 衍生物介绍:输入双向注意力,输出单向注意力代表模型:T5、Flan-T5、BART

2.5个人项目中模型的优化点和技术细节?

2.6个人项目中如何选择最佳的指令策略,以及其对模型效果的影响?

2.7个人项目中模型如何评测、数据集,评测指标等?

2.8在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的

影响? 【涉及项目的问题不展开】

3Leetcode题目

类似【11.盛最多水的容器】

题目内容:

给定一个长度为n的整数数组hcight.有n条垂线,第i条线的两个端点是(i0)和(i. height[i]) .找出其中的两条线,使得它们与x轴共同构成的容器可以容纳最多的水.

返回容器可以储存的最大水量.

说明:你不能倾斜容器.

示例1:

输入:height=[1 1] 示例2:输出:1

题目解答class Solution(object):def maxArea(self height)::type height: List[int]rtype: int方法:左右指针思路: 1.定义 左右指针 1 r=0 len(height)-12.定义最大面积max_area3.计算当前面积 temp_area=(r-l)*min(height[]height[r])4.判断 max_arca, temp_area 5.移动所指值最小的指针L r = 0 len(height)-1max_area = 0while Ienedug rrexru = noexeuif height[1]<height[r]:else: 1=|1r=r-1retum max_area 阿里大模型算法校招面试题(二) 技术问题回答 1.llama2中使用的注意力机制是什么?手写实现下分组注意力.2.了解langchain吗?讲讲其结构.3.对位置编码熟悉吗?讲讲几种位置编码的异同 4.RLHF的具体工程是什么?包含了哪几个模型?5.分别讲讲 encoder-only、decoder-only、cncoder-decoder几种大模型的代表作.6.具体讲讲p-tuning、lora 等微调方法,并指出它们与传统fine-tuning微调有何不同.7.显存不够一般怎么解决的? 8.几种主流大模型的loss了解过吗?有哪些异同?9.了解半精度训练吗?展开讲讲.10.deepspeed 用过吗?展开讲讲. 【解答参考对应的LLM面试资料】 百度大模型算法校招面试题(一) 技术面 1self-attention的公式及参数量,为什么用多头,为什么要除以根号d? self-attention模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置,因此作者提出了通过多头注意力机制来解决这一问题.同时,使用多头注意力机制还能够给这是因为点积的数量级增长很大,因此将 softmax函数推向了梯度极小的区域. 予注意力层的输出包含有不同子空间中的编码表示信息,从而增强模型的表达能力. 2你能不能介绍一下BERT和GPT的训练方式(预训练任务训练细节)的区别? 3简单介绍一下,transformer架构? 4大模型的模型架构有哪些? 大模型.用代码进行预训练.Prompt/Instruction Tuning人类的强化学习(RLHF)

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:标准资料
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)