大模型校招面试题.pdf

文档页数：11

文档大小：552.33KB

文档格式：pdf

文档分类：计算机与AI

上传会员：标准资料

上传日期：2026-06-04

最后更新：2026-06-04

大模型校招大厂面试题

阿里大模型算法校招面试题（一）

1自我介绍

在自我介绍环节，我清晰地阐述了个人基本信息、教有背景、工作经历和技能特长，展示了自信和沟通能力.

2技术问题回答

2.1self-attention的计算方式？

2.2说一下transformer的模型架构和细节？

2.3 pre normalization 和 post normalization layer norm，Batch norm

Layer Norm篇

Layer Norm 的计算公式：

beta：可训练的再偏移参数

gamma:可训练的再缩放参数

Post LN:

位置：layernorm在残差链接之后缺点：PostLN在深层的梯度范式逐渐增大，导致使用post-LN的深层transformer容易出现训练不稳定的间题

Pre-LN:

位置：layernorm在残差链接中优点：相比于Post-LN，PreLN在深层的梯度范式近似相等，所以使用Pre-LN的深层transformer训练更稳定，可以缓解训练不稳定问题缺点：相比于Post-LN，Pre-LN的模型效果略差

Sandwich-LN:

位置：在pre-LN的基础上，额外插入了一个layer norm优点：Cogview用来避免值爆炸的问题缺点：训练不稳定，可能会导致训练崩溃.

Layer normalization对比篇

模型 normalizationGPT3 Pre layer NormLLaMA PreRMS Normbaichuan Pre RMS NormChatGLM-6B PostDeepNormChatGLM2-6B PostRMS NormBloom Pre layer NormFalcon Pre layer Norm

BLOOM在embedding层后添加layer normalization，有利于提升训练稳定性：但可能会带来很大的性能损失

2.4BART、lama、gpt、t5、palm等主流模型异同点？

BART (bi Encodercasual Decoder，类bert 的方法预训练)T5 (EncoderDecoder，text2text预训练)GPT(Decoder 主打I zero-shot) GLM（mask的输入部分是双向注意力，在生成预测的是单向注意力）

目前主流的开源模型体系分三种：

第一种：prefix Decoder系介绍：输入双向注意力，输出单向注意力代表模型：ChatGLM、ChatGLM2、U-PaLM第二种：causal Decoder 系介绍：从左到右的单向注意力第三种：Encoder-Decoder 代表模型：LLaMA-7B、LLaMa 衍生物介绍：输入双向注意力，输出单向注意力代表模型：T5、Flan-T5、BART

2.5个人项目中模型的优化点和技术细节？

2.6个人项目中如何选择最佳的指令策略，以及其对模型效果的影响？

2.7个人项目中模型如何评测、数据集，评测指标等？

2.8在指令微调中，如何设置、选择和优化不同的超参数，以及其对模型效果的

影响？【涉及项目的问题不展开】

3Leetcode题目

类似【11.盛最多水的容器】

题目内容：

给定一个长度为n的整数数组hcight.有n条垂线，第i条线的两个端点是（i0）和（i. height[i]) .找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水.

返回容器可以储存的最大水量.

说明：你不能倾斜容器.

示例1:

输入：height=[1 1] 示例2:输出：1

题目解答class Solution(object):def maxArea(self height)::type height: List[int]rtype: int方法：左右指针思路： 1.定义左右指针 1 r=0 len(height)-12.定义最大面积max_area3.计算当前面积 temp_area=（r-l)*min(height[]height[r])4.判断 max_arca， temp_area 5.移动所指值最小的指针L r = 0 len(height)-1max_area = 0while Ienedug rrexru = noexeuif height[1]<height[r]:else: 1=｜1r=r-1retum max_area 阿里大模型算法校招面试题（二）技术问题回答 1.llama2中使用的注意力机制是什么？手写实现下分组注意力.2.了解langchain吗？讲讲其结构.3.对位置编码熟悉吗？讲讲几种位置编码的异同 4.RLHF的具体工程是什么？包含了哪几个模型？5.分别讲讲 encoder-only、decoder-only、cncoder-decoder几种大模型的代表作.6.具体讲讲p-tuning、lora 等微调方法，并指出它们与传统fine-tuning微调有何不同.7.显存不够一般怎么解决的？ 8.几种主流大模型的loss了解过吗？有哪些异同？9.了解半精度训练吗？展开讲讲.10.deepspeed 用过吗？展开讲讲. 【解答参考对应的LLM面试资料】百度大模型算法校招面试题（一）技术面 1self-attention的公式及参数量，为什么用多头，为什么要除以根号d？ self-attention模型在对当前位置的信息进行编码时，会过度的将注意力集中于自身的位置，因此作者提出了通过多头注意力机制来解决这一问题.同时，使用多头注意力机制还能够给这是因为点积的数量级增长很大，因此将 softmax函数推向了梯度极小的区域. 予注意力层的输出包含有不同子空间中的编码表示信息，从而增强模型的表达能力. 2你能不能介绍一下BERT和GPT的训练方式（预训练任务训练细节）的区别？ 3简单介绍一下，transformer架构？ 4大模型的模型架构有哪些？大模型.用代码进行预训练.Prompt/Instruction Tuning人类的强化学习（RLHF)

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：标准资料

大模型校招面试题.pdf

推荐内容/By 规范库

手机扫码、免注册、直接登录