大模型(LLMs)Tokenizer篇.pdf

文档页数：2

文档大小：302.5KB

文档格式：pdf

文档分类：计算机与AI

上传会员：标准资料

上传日期：2026-06-04

最后更新：2026-06-04

LLMs Tokenizer 篇

Byte-PairEncoding(BPE）篇

1 Byte-PairEncoding(BPE）如何构建词典？

1准备足够的训练语料；以及期望的词表大小：2将单词拆分为字符粒度（字粒度），并在末尾添加后缀“”，统计单词频率3合并方式：统计每一个连续/相邻字节对的出现频率，将最高频的连续字节对合并为新字词：4重复第3步，直到词表达到设定的词表大小；或下一个最高频字节对出现频率为1.注：GPT2、BART和LLaMA就采用了BPE.

WordPiece篇

WordPiece与BPE异同点是什么？

本质上还是BPE的思想.与BPE最大区别在于：如何选择两个子词进行合并

BPE是选择频次最大的相邻子词合并：

WordPiece算法选择能够提升语言模型概率最大的相邻子词进行合并，来加入词表：注：BERT采用了WordPicce.

SentencePiece篇

简单介绍一下SentencePiece思路？

把空格也当作一种特殊字符来处理，再用BPE或者来构造词汇表.注：ChatGLM、BLOOM、PaLM采用了SentencePiece.

对比篇

1举例介绍一下不同大模型LLMs的分词方式？

模型词表大小分词结果长度LLaMA 32000[男”，何”，不， ‘，' ， 24[男，儿，何，不，带，吴，物，，收取，关，山，五十，州”，，收，取，关，山r，五，十，州，Chinese LLaMA 49953 14ChatGLM-6B 130528[男儿，何不，“带，吴，物，”“收取，关山，五十，州，] 65024[男，儿，何，不，带，吴，物，，收取，关，山，五十，州”， 11ChatGLM2-6B 14Bloom 250880[男，儿何不，带，吴，钩，，“收取，关，山，五十，州，] 13Falcon 65024 [男儿不，带，吴，，收取山五十州 22

2介绍一下不同大模型LLMs的分词方式的区别？

中文平均英文平均中文处理英文处理模型词表大小 token数 token数时间（s）时间（s）LLaMA 32000 1.45 0.25 12.6 19.4Falcon 65024 1.18 0.235 21.395 24.73ChineseLLaMA 49953 0.62 0.249 8.65 19.12ChatGLM-6B 130528 0.55 0.19 15.91 20.84ChatGLM2-6B 65024 0.58 0.23 8.899 18.63Bloom 250880 0.53 0.22 9.87 15.6

1.LLaMA的词表是最小的，LLaMA在中英文上的平均token数都是最多的，这意味着LLaMA对中英文分词都会比较碎，比较细粒度.尤其在中文上平均token数高达1.45，这意味着LLaMA大概率会将中文字符切分为2个以上的token.

2.ChineseLLaMA扩展词表后，中文平均token数显著降低，会将一个汉字或两个汉字切分为一个token，提高了中文编码效率.

3.ChatGLM-6B是平衡中英文分词效果最好的 tokenizer.由于词表比较大，中文处理时间也有增加

4.BLOOM虽然是词表最大的，但由于是多语种的，在中英文上分词效率与ChatGLM-6B基本相当.

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：标准资料

大模型(LLMs)Tokenizer篇.pdf

推荐内容/By 规范库

手机扫码、免注册、直接登录