Post-Training & RLHF

A pretrained model is raw clay. Post-training is what turns it into something you’d use — instruction-following, preference-aligned, and (in the o1/R1 era) actually reasoning. Every lesson here has a runnable Colab.

0 / 8 lessons~126 min total

SFT & Instruction Tune14 min
LoRA / QLoRA / DoRA16 min
The Full RLHF Pipeline16 min
Reward Modeling at Scale16 min
PPO Deep Dive18 min
DPO / IPO / KTO16 min
GRPO & RL Reasoning16 min
RLVR — Verifiable Rewards14 min