Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰，中国科学技术大学本硕毕业，现任华为昇腾训练开发工程师，专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师，长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

个人概览¶

谭邵杰，1999 年生，湖南长沙人。高中毕业于长郡中学，本科与硕士均就读于中国科学技术大学。毕业后加入华为计算产品线昇腾产品线训练开发部，主要从事 AI 框架、训练系统与大模型在 NPU 平台上的迁移和性能优化工作。

当前工作重点包括：

PyTorch / torch_npu 框架性能优化
Ascend NPU 上的大模型训练与推理适配
多模态模型迁移与分布式训练优化
Megatron / FSDP / verl 等训练框架适配
大模型 RL 训练优化
Attention INT8 量化与推理性能攻关
客户现场模型迁移、性能调优与问题闭环

技术方向¶

训练框架优化¶

围绕 PyTorch 与 torch_npu 生态，参与 NPU 训练链路的性能优化工作，覆盖算子初始化、CPU 绑核、参数寻优、缓存利用等方向，关注框架层、Runtime 层和硬件特性之间的协同优化。

代表方向包括：

torch_npu 性能调优
细粒度 CPU 绑核优化
路径 3 算子 Lazy Init 优化
训练参数寻优
L2 Cache 使用优化
框架侧训练性能瓶颈分析

多模态模型迁移¶

参与 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等多模态模型在 Ascend NPU 上的训练适配，涉及 Megatron、FSDP 等分布式训练方案，重点解决模型结构复杂、算子链路长、显存占用高和并行策略适配难等问题。

代表方向包括：

VLM / 视频生成模型迁移
Megatron 分布式训练适配
FSDP 训练适配
多模态输入链路优化
大模型训练稳定性问题定位

推理性能攻关¶

参与 DeepSeek-R1、Qwen3 等模型的推理攻关，关注大规模 Expert Parallel、Attention 量化、推理性能和端到端吞吐优化。

代表方向包括：

DeepSeek-R1 推理适配与优化
Qwen3 推理适配与优化
大 EP 并行策略优化
Attention INT8 量化
推理性能瓶颈分析
客户现场推理问题闭环

RL 训练优化¶

参与生成模型强化学习训练链路优化，涉及 verl 框架、多模态模型 RL，以及 Intern 系列模型训练优化。当前方向聚焦大模型后训练阶段的系统性能、训练稳定性与异构平台适配。

代表方向包括：

verl + Qwen2.5-VL 适配
生成模型 RL 训练优化
Intern-S1 Pro RL 优化
Intern-S2 Preview 适配与优化
大模型后训练链路性能分析
已有相关论文发表

经历时间线¶

时间	团队 / 场景	主要工作	关键词
2024 H2	PyTorch 框架组	围绕 `torch_npu` 进行性能优化，涉及细粒度绑核、路径 3 算子 Lazy Init、参数寻优、L2 缓存优化等	PyTorch、torch_npu、性能优化、Lazy Init、L2 Cache
2025 H1	多模态组	负责 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等模型在 NPU 上的 Megatron / FSDP 适配	多模态、Megatron、FSDP、VLM、NPU
2025 H1	苏州现场	参与 DeepSeek-R1、Qwen3 推理攻关，负责大 EP 与 Attention INT8 量化相关优化	推理、大 EP、INT8、Attention、DeepSeek-R1、Qwen3
2025 H2	北京现场	参与字节 UniVL 模型迁移优化，适配 verl + Qwen2.5-VL 训练链路	UniVL、verl、Qwen2.5-VL、多模态 RL
2026 H1	上海现场	负责猛犸生成模型RL部分优化，DanceGRPO+MM后端+verl率先实现RL分数从0.4正常上升到0.8，支持客户RL训练，相关工作已有论文发表，相关代码合入verl社区，产出相关稼先文章两篇	生成模型、RL、后训练、论文
2026 H1	上海浦江现场	Intern-S1 Pro优化RL，推理性能翻倍；Intern-S2 Preview 模型 SFT的适配并优化，围绕GDN模块重点优化，从开箱0.12x H200 优化到 0.72x H200，产出稼先文章两篇，支持客户原生训练	Intern-S1 Pro、Intern-S2 Preview、RL、训练优化

代表项目¶

torch_npu 性能优化¶

2024 年下半年，在 PyTorch 框架组参与 torch_npu 性能优化工作。该阶段主要聚焦框架训练链路中的系统性开销，围绕 CPU 调度、算子初始化、参数组合和缓存利用进行优化。

主要工作包括：

设计并优化细粒度绑核策略，降低 CPU 调度和线程竞争带来的性能损耗。
优化路径 3 算子 Lazy Init 机制，减少初始化路径中的额外开销。
参与训练参数寻优，提升典型模型场景下的吞吐表现。
分析并优化 L2 Cache 使用，提升算子执行过程中的数据访问效率。

多模态模型 NPU 适配¶

2025 年上半年，在多模态组参与多个复杂模型在 Ascend NPU 平台上的迁移与训练适配，包括 OpenSoraPlan、DeepSeekVL2 和 GLM4.1V。

主要工作包括：

适配多模态模型在 NPU 上的训练执行链路。
基于 Megatron 与 FSDP 支撑大模型分布式训练。
解决多模态模型中视觉、语言、融合模块带来的算子和显存问题。
分析训练过程中的性能瓶颈与稳定性问题，并推动优化闭环。

DeepSeek-R1 与 Qwen3 推理攻关¶

2025 年上半年，参与苏州现场推理攻关，围绕 DeepSeek-R1 和 Qwen3 模型开展性能优化。

主要工作包括：

支撑大规模推理场景下的模型部署与问题定位。
参与大 EP 并行策略优化，提高专家模型推理效率。
参与 Attention INT8 量化优化，降低推理计算和访存开销。
针对端到端推理性能进行链路分析与优化。

UniVL 迁移与 verl 适配¶

2025 年下半年，参与北京现场模型迁移优化工作，主要围绕字节 UniVL 模型和 verl + Qwen2.5-VL 训练链路展开。

主要工作包括：

迁移 UniVL 多模态模型至 NPU 训练环境。
适配 verl 强化学习训练框架与 Qwen2.5-VL 模型。
分析多模态 RL 训练中的性能与稳定性问题。
推动模型训练链路在客户现场落地。

生成模型 RL 优化¶

2026 年上半年，参与上海现场生成模型 RL 优化，负责猛犸生成模型的 RL 部分，并已有相关论文发表。

主要工作包括：

负责生成模型 RL 训练链路的适配与优化。
分析 RL 阶段的训练性能、显存占用与通信开销。
支撑论文相关实验与工程实现。
推动生成模型后训练流程在 NPU 平台上的高效运行。

Intern 系列模型优化¶

2026 年上半年，参与上海浦江现场工作，优化 Intern-S1 Pro RL，并适配、优化 Intern-S2 Preview 模型。

主要工作包括：

优化 Intern-S1 Pro 的 RL 训练链路。
适配 Intern-S2 Preview 模型至目标训练环境。
分析模型训练过程中的性能瓶颈。
推动模型在 NPU 平台上的训练效率和稳定性提升。