#大模型

Function Calling 入门:让大模型学会"用工具"

大模型自己不会查天气、不会算精确数学、动不了你的数据库 —— Function Calling 就是给它"开外挂"的标准协议。这篇讲清楚它是什么、为什么需要、一次完整的调用长什么样,以及它和 Agent / MCP 到底是什么关系。

2025 年 2 月,Andrej Karpathy 在 X 上发了条推文,说他写代码已经变成"看一眼、说一句、跑一下、复制粘贴一下"。这个被称作 vibe coding 的工作方式,有人说是编程的未来,有人说是工程的灾难。它到底是什么?谁在用?有没有坑?

模型算出 softmax 概率分布之后,到底怎么"挑"下一个词?这一篇讲清楚贪婪解码、随机采样、温度系数这个"放飞旋钮",以及 Top-k / Top-p / Beam Search 的取舍。

上一篇把 LLM 拆成了 4 大模块,这篇深入 Transformer 块内部 —— 自注意力让词元"看别人",前馈网络让词元"想自己",两者一拍即合,堆 100 层就是 GPT。

把 LLM 看成黑盒太简单了 —— 拆解分词器、嵌入层、堆叠的 Transformer 块、语言建模头四个模块,讲清楚一句"我今天很"是怎么变成"开心"的。