概念必须落到代码
每章都配一个 PyTorch 脚本或可检查的小实验,避免只停留在名词解释。
学习主线
前半段不做机器学习百科,而是围绕“数据进入模型,损失衡量错误,梯度更新参数” 这条主线反复强化。后半段把注意力机制、Transformer、GPT 训练目标和偏好优化放到同一张图里理解。
每章都配一个 PyTorch 脚本或可检查的小实验,避免只停留在名词解释。
CNN、RNN、LSTM、GRU 作为建立直觉的台阶,重点最终回到 Transformer 与 LLM。
从分类交叉熵到 next-token loss,再到 response-only mask、preference loss 和 policy objective。
章节目录
先读这几章
把 query、key、value、padding mask、causal mask 拆到可打印、可检查。
13token embedding、位置编码、Transformer block、LM head 组成最小 decoder-only 模型。
16用 response-only label mask 解释为什么 SFT 本质上仍然是 next-token prediction。
20把预训练、生成检查、loss 显微镜、SFT、PPO、DPO、GRPO 串成可运行路线图。
21用简化实现理解 RoPE、GQA、MLA、稀疏注意力、FlashAttention 和 KV Cache。
跑通实验
本专栏的第一目标是让读者把核心训练循环跑通。项目使用 uv 管理环境,
smoke test 会覆盖从手写梯度到 mini-GPT 生成的关键闭环。
uv sync --locked
bash scripts/smoke_test.sh
uv run python -m llm_tutor.experiments.train_cnn --epochs 2
uv run python -m llm_tutor.experiments.inspect_self_attention
uv run python -m llm_tutor.experiments.train_mini_gpt --epochs 2
uv run python -m llm_tutor.experiments.run_capstone_pipeline
代码入口
参考风格