RL Infra Series

导言

这个目录不是单篇文章，而是一条从 数据流 出发，逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。

系列目标¶

先统一语言：把 logical shape、physical shard shape、tensor lifetime、dynamic batch、sequence split 这些概念对齐。
再谈实现：先回答“数据怎么流、shape 怎么变、显存为什么涨、负载为什么不均”，再看具体代码。
最后落到特性：把 verl 的训练、推理、异步、checkpoint 和其余框架特性拆成可验证的独立文章。

顺序	文章	核心问题	主要交付
1	`RL Data Flow`	RL 从推理输入到训练输出，数据如何流动	shape ledger、memory ledger、DFX 设计、SP/CP 差异
2	`RL DFX Metrics`	如何设计维测指标解释正确性、性能、显存和负载	指标体系、告警规则、dashboard 草图
3	`VeRL Training Flow`	verl 的训练主链路如何组织	RayPPOTrainer、worker 角色、loss 路径、后端差异
4	`VeRL Rollout Inference`	rollout / vLLM 图模式如何设计	backend 对比、CUDA Graph 模式、推理指标
5	`VeRL Speculative Decoding`	MTP、EAGLE、DFlash 如何缩短 decode	verifier-exact、draft sync、metadata 风险
6	`VeRL Router Replay`	MoE rollout / logprob / update 如何对齐 expert 路径	R2/R3、routed experts、KL 与 clip 风险
7	`VeRL Async`	FullAsync、AsyncFlow 与 stream RL 为什么能提效	异步队列、staleness、partial rollout
8	`VeRL TransferQueue`	TQ 如何拆开 control flow 与 data flow	字段生命周期、single controller 瓶颈、采样语义
9	`VeRL Checkpoint`	mooncake checkpoint 解决什么问题	save / restore state、依赖、失败模式
10	`VeRL Performance Optimization`	各特性如何影响 MFU / SMA	性能模型、瓶颈拆解、对外解释模板
11	`VeRL Feature Matrix`	每个特性如何开关、代码在哪、默认为何关闭	feature matrix、验证状态、风险清单

未验证项

下面这些内容在后续写作中必须回到 verl release/v0.7.1 代码和实际日志确认，不能直接写成结论：

先补完第一篇 RL Data Flow。
再写训练、推理、异步、checkpoint 四篇主线文章。
最后补 Performance Optimization 与 Feature Matrix，把“怎么开、为什么默认关、对 MFU / SMA 的影响”收口成表格。