Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization
导言
谭邵杰,中国科学技术大学本硕毕业,现任华为昇腾训练开发工程师,专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。
AI 训练推理框架与异构加速优化工程师,长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。
个人概览¶
谭邵杰,1999 年生,湖南长沙人。高中毕业于长郡中学,本科与硕士均就读于中国科学技术大学。毕业后加入华为计算产品线昇腾产品线训练开发部,主要从事 AI 框架、训练系统与大模型在 NPU 平台上的迁移和性能优化工作。
当前工作重点包括:
- PyTorch /
torch_npu框架性能优化 - Ascend NPU 上的大模型训练与推理适配
- 多模态模型迁移与分布式训练优化
- Megatron / FSDP / verl 等训练框架适配
- 大模型 RL 训练优化
- Attention INT8 量化与推理性能攻关
- 客户现场模型迁移、性能调优与问题闭环
技术方向¶
训练框架优化¶
围绕 PyTorch 与 torch_npu 生态,参与 NPU 训练链路的性能优化工作,覆盖算子初始化、CPU 绑核、参数寻优、缓存利用等方向,关注框架层、Runtime 层和硬件特性之间的协同优化。
代表方向包括:
torch_npu性能调优- 细粒度 CPU 绑核优化
- 路径 3 算子 Lazy Init 优化
- 训练参数寻优
- L2 Cache 使用优化
- 框架侧训练性能瓶颈分析
多模态模型迁移¶
参与 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等多模态模型在 Ascend NPU 上的训练适配,涉及 Megatron、FSDP 等分布式训练方案,重点解决模型结构复杂、算子链路长、显存占用高和并行策略适配难等问题。
代表方向包括:
- VLM / 视频生成模型迁移
- Megatron 分布式训练适配
- FSDP 训练适配
- 多模态输入链路优化
- 大模型训练稳定性问题定位
推理性能攻关¶
参与 DeepSeek-R1、Qwen3 等模型的推理攻关,关注大规模 Expert Parallel、Attention 量化、推理性能和端到端吞吐优化。
代表方向包括:
- DeepSeek-R1 推理适配与优化
- Qwen3 推理适配与优化
- 大 EP 并行策略优化
- Attention INT8 量化
- 推理性能瓶颈分析
- 客户现场推理问题闭环
RL 训练优化¶
参与生成模型强化学习训练链路优化,涉及 verl 框架、多模态模型 RL,以及 Intern 系列模型训练优化。当前方向聚焦大模型后训练阶段的系统性能、训练稳定性与异构平台适配。
代表方向包括:
- verl + Qwen2.5-VL 适配
- 生成模型 RL 训练优化
- Intern-S1 Pro RL 优化
- Intern-S2 Preview 适配与优化
- 大模型后训练链路性能分析
- 已有相关论文发表
经历时间线¶
| 时间 | 团队 / 场景 | 主要工作 | 关键词 |
|---|---|---|---|
| 2024 H2 | PyTorch 框架组 | 围绕 torch_npu 进行性能优化,涉及细粒度绑核、路径 3 算子 Lazy Init、参数寻优、L2 缓存优化等 |
PyTorch、torch_npu、性能优化、Lazy Init、L2 Cache |
| 2025 H1 | 多模态组 | 负责 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等模型在 NPU 上的 Megatron / FSDP 适配 | 多模态、Megatron、FSDP、VLM、NPU |
| 2025 H1 | 苏州现场 | 参与 DeepSeek-R1、Qwen3 推理攻关,负责大 EP 与 Attention INT8 量化相关优化 | 推理、大 EP、INT8、Attention、DeepSeek-R1、Qwen3 |
| 2025 H2 | 北京现场 | 参与字节 UniVL 模型迁移优化,适配 verl + Qwen2.5-VL 训练链路 | UniVL、verl、Qwen2.5-VL、多模态 RL |
| 2026 H1 | 上海现场 | 负责猛犸生成模型RL部分优化,DanceGRPO+MM后端+verl率先实现RL分数从0.4正常上升到0.8,支持客户RL训练,相关工作已有论文发表,相关代码合入verl社区,产出相关稼先文章两篇 | 生成模型、RL、后训练、论文 |
| 2026 H1 | 上海浦江现场 | Intern-S1 Pro优化RL,推理性能翻倍;Intern-S2 Preview 模型 SFT的适配并优化 ,围绕GDN模块重点优化,从开箱0.12x H200 优化到 0.72x H200,产出稼先文章两篇,支持客户原生训练 | Intern-S1 Pro、Intern-S2 Preview、RL、训练优化 |
代表项目¶
torch_npu 性能优化¶
2024 年下半年,在 PyTorch 框架组参与 torch_npu 性能优化工作。该阶段主要聚焦框架训练链路中的系统性开销,围绕 CPU 调度、算子初始化、参数组合和缓存利用进行优化。
主要工作包括:
- 设计并优化细粒度绑核策略,降低 CPU 调度和线程竞争带来的性能损耗。
- 优化路径 3 算子 Lazy Init 机制,减少初始化路径中的额外开销。
- 参与训练参数寻优,提升典型模型场景下的吞吐表现。
- 分析并优化 L2 Cache 使用,提升算子执行过程中的数据访问效率。
多模态模型 NPU 适配¶
2025 年上半年,在多模态组参与多个复杂模型在 Ascend NPU 平台上的迁移与训练适配,包括 OpenSoraPlan、DeepSeekVL2 和 GLM4.1V。
主要工作包括:
- 适配多模态模型在 NPU 上的训练执行链路。
- 基于 Megatron 与 FSDP 支撑大模型分布式训练。
- 解决多模态模型中视觉、语言、融合模块带来的算子和显存问题。
- 分析训练过程中的性能瓶颈与稳定性问题,并推动优化闭环。
DeepSeek-R1 与 Qwen3 推理攻关¶
2025 年上半年,参与苏州现场推理攻关,围绕 DeepSeek-R1 和 Qwen3 模型开展性能优化。
主要工作包括:
- 支撑大规模推理场景下的模型部署与问题定位。
- 参与大 EP 并行策略优化,提高专家模型推理效率。
- 参与 Attention INT8 量化优化,降低推理计算和访存开销。
- 针对端到端推理性能进行链路分析与优化。
UniVL 迁移与 verl 适配¶
2025 年下半年,参与北京现场模型迁移优化工作,主要围绕字节 UniVL 模型和 verl + Qwen2.5-VL 训练链路展开。
主要工作包括:
- 迁移 UniVL 多模态模型至 NPU 训练环境。
- 适配 verl 强化学习训练框架与 Qwen2.5-VL 模型。
- 分析多模态 RL 训练中的性能与稳定性问题。
- 推动模型训练链路在客户现场落地。
生成模型 RL 优化¶
2026 年上半年,参与上海现场生成模型 RL 优化,负责猛犸生成模型的 RL 部分,并已有相关论文发表。
主要工作包括:
- 负责生成模型 RL 训练链路的适配与优化。
- 分析 RL 阶段的训练性能、显存占用与通信开销。
- 支撑论文相关实验与工程实现。
- 推动生成模型后训练流程在 NPU 平台上的高效运行。
Intern 系列模型优化¶
2026 年上半年,参与上海浦江现场工作,优化 Intern-S1 Pro RL,并适配、优化 Intern-S2 Preview 模型。
主要工作包括:
- 优化 Intern-S1 Pro 的 RL 训练链路。
- 适配 Intern-S2 Preview 模型至目标训练环境。
- 分析模型训练过程中的性能瓶颈。
- 推动模型在 NPU 平台上的训练效率和稳定性提升。