Transformer 内部结构:从输入到输出拆解 LLM 四大核心组件
2
把 LLM 看成黑盒太简单了 —— 拆解分词器、嵌入层、堆叠的 Transformer 块、语言建模头四个模块,讲清楚一句"我今天很"是怎么变成"开心"的。
AI #AI #大模型 #Transformer #NLP
阅读全文 把 LLM 看成黑盒太简单了 —— 拆解分词器、嵌入层、堆叠的 Transformer 块、语言建模头四个模块,讲清楚一句"我今天很"是怎么变成"开心"的。
模型算出 softmax 概率分布之后,到底怎么"挑"下一个词?这一篇讲清楚贪婪解码、随机采样、温度系数这个"放飞旋钮",以及 Top-k / Top-p / Beam Search 的取舍。
2025 年 2 月,Andrej Karpathy 在 X 上发了条推文,说他写代码已经变成"看一眼、说一句、跑一下、复制粘贴一下"。这个被称作 vibe coding 的工作方式,有人说是编程的未来,有人说是工程的灾难。它到底是什么?谁在用?有没有坑?