笔记¶

2026年4月26日
分类于 Programming
需要 3 分钟阅读时间

AutoFuse

导言

DeepSeek V4 加大了与Ascend的合作；
在华为稼先上的技术报告，除了Ascend C对attention有算子优化；
通过pytorch的算子自动融合 AutoFuse 处理一些非常规的计算，可以实现E2E加速31%。并且说可以修改一行之间开启。

故了解相关概念，但是实际上 AutoFuse只适合非常规计算特别多，又没有人力投入的情况，可以考虑AutoFuse。但是对于Qwen3.5 这种优化后就只有一半Matmul/GMM，一半GDN的情况，AutoFuse接入的收益就不足了。

2026年4月26日
分类于 Programming
需要 5 分钟阅读时间

TileLang & Mega-kernel

导言

triton 虽然主流，大部分硬件都支持，虽然能快速拿到一部分收益，但是却较难极致性能。
但是Ascend C / PyPTO 又过于Ascend定制化，(~~学了怎么跳槽啊~~)
寻找一种更底层，支持极致性能的通用算子编程语言，是极致性能优化里不可或缺的一环。

2026年4月24日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

Tensor Metrics

导言

在AI训练流程中，明明一个tensor就是一个shape下的数值，但是竟然有一堆指标来处理和解释其含义：

l1 norm
entropy
log_prob
logistics

这些指标代表什么，用途为何？如何计算（标量？什么shape），计算前后值域/shape变化如何，在比较精度的场景下是否为合适的典型指标（有代表性，且能比较）

KL divergence
JS divergence
argmax agreement
top-k agreement

2026年4月24日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Model Migrate Accuracy

导言

之前将megatron GPU实现迁移到NPU时，对齐精度，通过打印hook+小算子，只是打印 hash、l1_norm、mean、sum实现，能实现tensor hash值一模一样。

但是后来为了性能不得不上融合算子，就不能实现hash值相同；

到现在RL训推一致性，需要对齐训练和推理的精度，有两个问题： 1. 由于激活值在通过attention，mlp moe等模块时，激活值的shape和值域都会变化，如何判断对比两者的在哪个模块有明显的变化。需要不同模块能通过norm类似的操作来统一误差标准，然后我能拉一个每个不同模块的误差曲线，能通过可视化发现误差陡增的位置就是问题所在。 2. 主要我不希望dump每个模块的输出来进行位数的对比，这样太耗时和消耗空间，但是统计值l1_norm、mean、sum、min和max好像已经不够了，是不是需要加上p95等分位值，或者对于tensor变量一些metrics：kl loss才能更好的对比两个比较两个tensor的差异，且是数值可比较的。

2026年4月14日
分类于 Programming
需要 2 分钟阅读时间

PyPTO

导言

浦江现场性能优化时，原始 triton 的 GDN性能相对于H200的triton性能很差；
接入了 Ascend C的若干GDN算子实现，提速了一倍；
接入 mojo_opset 的 casual_conv1d; 或者 huawei-csl的 sglang的高性能 solve_tril 。性能又提升一波，但和竞品还是有差异。
2012实验室对 PyPTO 有精细调优，现在想接入

2026年4月9日
分类于 Programming
需要 5 分钟阅读时间

Triton & Triton Ascend

导言

Ascend上训练编译成全图有功能问题，导致下发问题并不能像GPU一样完全解决；
在浦江实验室的经验是，triton确实能快速拿到2～3倍的收益，如果算子还有问题就能考虑

2026年3月17日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Agent & Agentic RL

导言

Agentic RL 和 memory 是2026年的发展方向。本文将调研 Agentic RL 在多模态的发展潜力。

2026年3月17日
分类于 Artificial Intelligence
需要 8 分钟阅读时间

RL: Training Inference Mismatch

导言

25年，RL训练崩溃归因于训推不一致；
为此提出了很多方法，TIS，Router Replay，FP16训推，batch一致性...
如何判断模型当前训推不一致，并找到不一致实现处，是实践的要点。

2026年2月27日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

Business Trip: 2601-2602 verl + DanceGRPO

导言

ZJ内部出差，从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL，达成reward快速持续上升。

2026年2月5日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

The Mechanics of RL: How Inference Sampling Shapes the Probability Landscape

导言

推理采样如何重塑概率地图：在普通监督学习（SFT）中，模型是被“喂饭”——你告诉它正确答案是什么，它去模仿。而在强化学习（RL）中，模型是在“试错”——它自己写几个答案，然后根据好坏来调整自己。