跳转至

笔记

AI 辅助写作与幻觉风险

本站大部分博客和笔记会借助 GPT 等先进模型辅助撰写,包括但不限于资料整理、结构梳理、表达润色和草稿生成。AI 能降低写作成本,但也可能引入事实错误、概念混淆、引用缺失和看似合理的幻觉内容。

因此,除非特别标注,我不保证文中内容完全准确。如果你将这些内容用于学习、工作或决策,请务必自行查证原始资料,并结合上下文判断其可靠性。

劝退指南:不是博客,而是笔记,甚至是草稿

写笔记是为了让自己看懂,写博客是为了让别人看懂,不一样的,认真做好后者对自己各方面能力的提升会非常大(比如表达能力),其实很多时候记笔记就是写几段自己能看懂的表达,很随性,但写博客更像是写一篇论文,需要自己先彻底搞明白一个东西后才能输出1

我一直努力将内容写成博客。但是后来发现,根本没有时间和心思,来为别人解释很多事情。我的想法最多是解释给多年后忘记一切的自己听,让我还能快速看懂。能达到这点,这些内容的意义对于我就已经足够。

现在拥抱 AI 之后,我更愿意把这些内容理解为 AI 时代的阶段性理解产出。AI 降低了知识获取、信息筛选和文本生成的门槛,但它并不会自动替代人的理解:一个概念为什么重要、如何与已有知识连接、在哪些边界条件下成立,仍然需要自己反复判断、实践和修正。

所以,我仍然会继续更新这些文档。它们不是面向所有读者的完整教程,而是我在某个阶段借助 AI、资料阅读和个人实践,对相关概念形成的理解快照。未来的我可能会推翻、重写或补充其中很多内容,这也是笔记存在的意义。

从读者的角度,我并不会推荐任何人阅读这个网站的内容:因为你会遇到以下令人烦躁的场景

  1. 完整性差:某些笔记写着写着就没有了,内容是残缺的。甚至只有一个标题。(这是因为我没有时间填充内容,或者我的研究和注意力转变方向了,弃坑了弃坑了~)
  2. 可读性一般:很少有起承转合的解释语句,笔记的内容逻辑几乎全部靠多级标题维持.
  3. 笔记间关联性低:从读者的角度是看不到本人是如何使用多级文件夹,来组织划分笔记间的内容逻辑。如果你在搜索栏找不到你想要的关键词,那大概率我没接触到这方面的内容。
知识是自然聚类和融合的,但需要两级的文档来过滤内容和撰写正文。小而全、无懈可击的内容应该是所追求的

导致这种情况,其实和我对知识产出过程的理解有关,我认为过程是 知识是自然聚类和融合的

  1. 接触到领域对象(新建文件夹)
  2. 阅读各种文献网站(零散的知识进行简单的聚类)
  3. 上手实践和研究(踩了许多坑,有或多或少的感悟)。

而且三者的占比是前面远大于后面,这样看来我这网站大部分的内容岂不是都是笔记的草稿

我以这样的方式撰写我的正式的毕业论文时,发现这样的处理有利有弊:

  1. 优势:
    1. 速度?:能快速的罗列出内容,填充了大量垃圾内容
    2. 完备性:保留所有必要的相关信息,
  2. 劣势:
    1. 对工作进度的误判:罗列的大量页数迷惑了自己,以为进度很快。其实仔细思路内容的有效性、逻辑关联性。核心观点的提炼。遣词造句都极其耗费时间。
      1. 最重要是导致只看页数的领导对你工作速度的误判导致的嫌弃:一周前就看见里论文写了60页了,怎么两周了还没写完。或者你都60页了快结束了,来帮帮我弄这个~阿米诺斯~
    2. 需要返工:重新整理罗列的垃圾内容,至少需要三倍以上的时间才能整理好。

总结:知识是自然聚类和融合的思想是没错的,但是在实际生产应用时需要两级的信息筛选过滤体系:区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用,正文精心撰写每一句话保证不需要大量返工。

Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰,中国科学技术大学本硕毕业,现任华为昇腾训练开发工程师,专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师,长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

Diffusion LLM Post-Training

导言

dLLM 的核心变化不是把 LLM 外面套一层 diffusion 名字,而是把语言生成从 left-to-right next-token prediction 改成 masked denoising over a token canvas。这会连带改变 SFT 的数据变换、loss 位置、attention mask、采样器,以及 RL 中最敏感的 logprob 对齐方式。

本文基于 2026-06-25 对 inclusionAI/dFactoryZHZisZZ/dllmByteDance-Seed/VeOmni 的源码调研,回答三个工程问题:dLLM 相对传统 LLM 原理有何不同,SFT/RL 代码流程如何变化,以及如果迁移到传统 SFT 仓 VeOmni,大概需要补哪些模块。

VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时,最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是:训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例,以及新增的 TinyLLaVA-Video-R1-NextQAmultimodal-open-r1-8k-verified 两类数据,比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。

Frontier Model RL

导言

这篇文章用于持续梳理前沿 LLM/VLM 模型的 RL recipe:它们在什么 RL 框架下训练,经历了哪几个 RL 阶段,每个阶段使用什么算法,以及这些设计到底想解决什么问题。

这里的核心原则是 evidence-first:只把官方博客、技术报告、模型卡、开源仓库中明确披露的内容写成结论;如果资料只披露能力提升而没有披露训练阶段,就标注为“未公开”,不反推、不补脑。

VeRL Local Debug on Mac

导言

最近一直在出差,现实问题很直接:远端服务器连不上、GPU 不稳定、集群排队慢,但 SE 的核心工作并不会因此消失——还是要读代码、跑代码、改设计、做验证。

这篇系列草稿要解决的,不是“在 Mac 上替代生产集群”,而是一个更现实的问题:能不能在本地 Mac M4 16GB 的约束下,把 VeRL 的关键路径跑起来,做最小功能验证、快速 debug 和设计迭代。

如果这条路能走通,它不仅能改善出差场景下的开发效率,也会让后续的 AI 接管式功能开发 更容易落地:本地可复现、日志可追踪、入口可脚本化、失败可定位。

RL DFX Metrics

导言

RL 训练的指标不能只看 reward、loss 和 throughput。真正可用的 DFX 体系,需要同时解释 正确性、稳定性、显存、性能、负载均衡和数据质量

RL Data Flow

导言

这篇文章只回答一个问题:一条 RL 样本从 prompt 进入系统,到 rollout、reward、logprob、advantage、loss、backward,最后回到下一轮训练时,数据到底怎么流、shape 怎么变、显存为什么涨。

VeRL Async

导言

这篇文章解释为什么 RL 训练需要异步:同步流程中 rollout、reward、logprob、ref 和 actor update 互相等待,容易导致设备空闲;异步机制的目标是减少 stage bubble,提高 E2E throughput 和硬件利用率。

VeRL Checkpoint

导言

RL checkpoint 比普通 SFT checkpoint 更复杂,因为它不仅要保存模型参数,还要保存 optimizer、scheduler、global step、采样状态,以及在异步模式下可能存在的队列和策略版本状态。

VeRL Feature Matrix

导言

这篇文章作为索引页,专门回答每个特性:怎么开、代码在哪、逻辑是什么、实践效果怎样、为什么默认不开、对 MFU / SMA 有什么作用。