机器学习 / 深度学习 / LLM 后训练 / 现代组件

从梯度下降到 GPT

给会写 Python、想快速建立大语言模型训练直觉的读者：用 23 章中文教程和 PyTorch 实验，把损失函数、反向传播、CNN、RNN、Attention、 Transformer、GPT、SFT、PPO、DPO、GRPO、现代 LLM 组件、多模态和 Diffusion 串成一条能跑起来的学习路径。

进入章节列表查看实验命令

学习主线

这套专栏只保留通往 LLM 的必要地基

前半段不做机器学习百科，而是围绕“数据进入模型，损失衡量错误，梯度更新参数” 这条主线反复强化。后半段把注意力机制、Transformer、GPT 训练目标和偏好优化放到同一张图里理解。

数据 x / y / token

前向传播 CNN / RNN / GPT

损失函数 CE / mask / preference

参数更新 SGD / Adam / policy

概念必须落到代码

每章都配一个 PyTorch 脚本或可检查的小实验，避免只停留在名词解释。

老知识只讲必要部分

CNN、RNN、LSTM、GRU 作为建立直觉的台阶，重点最终回到 Transformer 与 LLM。

训练目标保持连贯

从分类交叉熵到 next-token loss，再到 response-only mask、preference loss 和 policy objective。

章节目录

23 章路线

先读这几章

四个最值得先看的节点

Self-Attention 从零实现

把 query、key、value、padding mask、causal mask 拆到可打印、可检查。

GPT 从零实现

token embedding、位置编码、Transformer block、LM head 组成最小 decoder-only 模型。

SFT 指令微调

用 response-only label mask 解释为什么 SFT 本质上仍然是 next-token prediction。

Mini LLM Pipeline

把预训练、生成检查、loss 显微镜、SFT、PPO、DPO、GRPO 串成可运行路线图。

现代 LLM 组件

用简化实现理解 RoPE、GQA、MLA、稀疏注意力、FlashAttention 和 KV Cache。

跑通实验

文章和代码是一一对应的

本专栏的第一目标是让读者把核心训练循环跑通。项目使用 uv 管理环境， smoke test 会覆盖从手写梯度到 mini-GPT 生成的关键闭环。

uv sync --locked
bash scripts/smoke_test.sh

uv run python -m llm_tutor.experiments.train_cnn --epochs 2
uv run python -m llm_tutor.experiments.inspect_self_attention
uv run python -m llm_tutor.experiments.train_mini_gpt --epochs 2
uv run python -m llm_tutor.experiments.run_capstone_pipeline

代码入口

核心代码入口

models CNN、RNN、Seq2Seq、Attention、Transformer、GPT experiments 每章对应的训练、检查和对比脚本 post_training SFT、PPO、DPO、GRPO 的最小教学实现 capstone report Mini LLM Pipeline 的阶段说明与结果记录

参考风格

参考的知识分享站点气质

Lilian Weng长文结构、术语密度和图文节奏
Jay Alammar视觉解释和模型结构拆解
Colah's Blog用图建立直觉，而不是堆公式
Maggie Appleton个人知识花园的温度和可探索性
Eugene Yan工程化目录、实践导向和索引清晰度