大模型校招大厂面试题
阿里大模型算法校招面试题(一)
1自我介绍
在自我介绍环节,我清晰地阐述了个人基本信息、教有背景、工作经历和技能特长,展示了 自信和沟通能力.
2技术问题回答
2.1self-attention的计算方式?
2.2说一下transformer的模型架构和细节?
2.3 pre normalization 和 post normalization layer norm,Batch norm
Layer Norm篇
Layer Norm 的计算公式:
beta:可训练的再偏移参数
gamma:可训练的再缩放参数
Post LN:
位置:layernorm在残差链接之后缺点:PostLN在深层的梯度范式逐渐增大,导致使用post-LN的深层transformer容易出现训练不稳定的间题
Pre-LN:
位置:layernorm在残差链接中优点:相比于Post-LN,PreLN在深层的梯度范式近似相等,所以使用Pre-LN的深层transformer训练更稳定,可以缓解训练不稳定问题缺点:相比于Post-LN,Pre-LN的模型效果略差
Sandwich-LN:
位置:在pre-LN的基础上,额外插入了一个layer norm优点:Cogview用来避免值爆炸的问题缺点:训练不稳定,可能会导致训练崩溃.
Layer normalization对比篇
模型 normalizationGPT3 Pre layer NormLLaMA PreRMS Normbaichuan Pre RMS NormChatGLM-6B PostDeepNormChatGLM2-6B PostRMS NormBloom Pre layer NormFalcon Pre layer Norm
BLOOM在embedding层后添加layer normalization,有利于提升训练稳定性:但可能会带来很大的性能损失
2.4BART、lama、gpt、t5、palm等主流模型异同点?
BART (bi Encodercasual Decoder,类bert 的方法预训练)T5 (EncoderDecoder,text2text预训练)GPT(Decoder 主打I zero-shot) GLM(mask的输入部分是双向注意力,在生成预测的是单向注意力)
目前主流的开源模型体系分三种:
第一种:prefix Decoder系介绍:输入双向注意力,输出单向注意力 代表模型:ChatGLM、ChatGLM2、U-PaLM第二种:causal Decoder 系介绍:从左到右的单向注意力第三种:Encoder-Decoder 代表模型:LLaMA-7B、LLaMa 衍生物介绍:输入双向注意力,输出单向注意力代表模型:T5、Flan-T5、BART
2.5个人项目中模型的优化点和技术细节?
2.6个人项目中如何选择最佳的指令策略,以及其对模型效果的影响?
2.7个人项目中模型如何评测、数据集,评测指标等?
2.8在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的
影响? 【涉及项目的问题不展开】
3Leetcode题目
类似【11.盛最多水的容器】
题目内容:
给定一个长度为n的整数数组hcight.有n条垂线,第i条线的两个端点是(i0)和(i. height[i]) .找出其中的两条线,使得它们与x轴共同构成的容器可以容纳最多的水.
返回容器可以储存的最大水量.
说明:你不能倾斜容器.
示例1:
输入:height=[1 1] 示例2:输出:1
题目解答class Solution(object):def maxArea(self height)::type height: List[int]rtype: int方法:左右指针思路: 1.定义 左右指针 1 r=0 len(height)-12.定义最大面积max_area3.计算当前面积 temp_area=(r-l)*min(height[]height[r])4.判断 max_arca, temp_area 5.移动所指值最小的指针L r = 0 len(height)-1max_area = 0while Ienedug rrexru = noexeuif height[1]<height[r]:else: 1=|1r=r-1retum max_area 阿里大模型算法校招面试题(二) 技术问题回答 1.llama2中使用的注意力机制是什么?手写实现下分组注意力.2.了解langchain吗?讲讲其结构.3.对位置编码熟悉吗?讲讲几种位置编码的异同 4.RLHF的具体工程是什么?包含了哪几个模型?5.分别讲讲 encoder-only、decoder-only、cncoder-decoder几种大模型的代表作.6.具体讲讲p-tuning、lora 等微调方法,并指出它们与传统fine-tuning微调有何不同.7.显存不够一般怎么解决的? 8.几种主流大模型的loss了解过吗?有哪些异同?9.了解半精度训练吗?展开讲讲.10.deepspeed 用过吗?展开讲讲. 【解答参考对应的LLM面试资料】 百度大模型算法校招面试题(一) 技术面 1self-attention的公式及参数量,为什么用多头,为什么要除以根号d? self-attention模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置,因此作者提出了通过多头注意力机制来解决这一问题.同时,使用多头注意力机制还能够给这是因为点积的数量级增长很大,因此将 softmax函数推向了梯度极小的区域. 予注意力层的输出包含有不同子空间中的编码表示信息,从而增强模型的表达能力. 2你能不能介绍一下BERT和GPT的训练方式(预训练任务训练细节)的区别? 3简单介绍一下,transformer架构? 4大模型的模型架构有哪些? 大模型.用代码进行预训练.Prompt/Instruction Tuning人类的强化学习(RLHF)