跳转至

Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰,中国科学技术大学本硕毕业,现任华为昇腾训练开发工程师,专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师,长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

个人概览

谭邵杰,1999 年生,湖南长沙人。高中毕业于长郡中学,本科与硕士均就读于中国科学技术大学。毕业后加入华为计算产品线昇腾产品线训练开发部,主要从事 AI 框架、训练系统与大模型在 NPU 平台上的迁移和性能优化工作。

当前工作重点包括:

  • PyTorch / torch_npu 框架性能优化
  • Ascend NPU 上的大模型训练与推理适配
  • 多模态模型迁移与分布式训练优化
  • Megatron / FSDP / verl 等训练框架适配
  • 大模型 RL 训练优化
  • Attention INT8 量化与推理性能攻关
  • 客户现场模型迁移、性能调优与问题闭环

技术方向

训练框架优化

围绕 PyTorch 与 torch_npu 生态,参与 NPU 训练链路的性能优化工作,覆盖算子初始化、CPU 绑核、参数寻优、缓存利用等方向,关注框架层、Runtime 层和硬件特性之间的协同优化。

代表方向包括:

  • torch_npu 性能调优
  • 细粒度 CPU 绑核优化
  • 路径 3 算子 Lazy Init 优化
  • 训练参数寻优
  • L2 Cache 使用优化
  • 框架侧训练性能瓶颈分析

多模态模型迁移

参与 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等多模态模型在 Ascend NPU 上的训练适配,涉及 Megatron、FSDP 等分布式训练方案,重点解决模型结构复杂、算子链路长、显存占用高和并行策略适配难等问题。

代表方向包括:

  • VLM / 视频生成模型迁移
  • Megatron 分布式训练适配
  • FSDP 训练适配
  • 多模态输入链路优化
  • 大模型训练稳定性问题定位

推理性能攻关

参与 DeepSeek-R1、Qwen3 等模型的推理攻关,关注大规模 Expert Parallel、Attention 量化、推理性能和端到端吞吐优化。

代表方向包括:

  • DeepSeek-R1 推理适配与优化
  • Qwen3 推理适配与优化
  • 大 EP 并行策略优化
  • Attention INT8 量化
  • 推理性能瓶颈分析
  • 客户现场推理问题闭环

RL 训练优化

参与生成模型强化学习训练链路优化,涉及 verl 框架、多模态模型 RL,以及 Intern 系列模型训练优化。当前方向聚焦大模型后训练阶段的系统性能、训练稳定性与异构平台适配。

代表方向包括:

  • verl + Qwen2.5-VL 适配
  • 生成模型 RL 训练优化
  • Intern-S1 Pro RL 优化
  • Intern-S2 Preview 适配与优化
  • 大模型后训练链路性能分析
  • 已有相关论文发表

经历时间线

时间 团队 / 场景 主要工作 关键词
2024 H2 PyTorch 框架组 围绕 torch_npu 进行性能优化,涉及细粒度绑核、路径 3 算子 Lazy Init、参数寻优、L2 缓存优化等 PyTorch、torch_npu、性能优化、Lazy Init、L2 Cache
2025 H1 多模态组 负责 OpenSoraPlan、DeepSeekVL2、GLM4.1V 等模型在 NPU 上的 Megatron / FSDP 适配 多模态、Megatron、FSDP、VLM、NPU
2025 H1 苏州现场 参与 DeepSeek-R1、Qwen3 推理攻关,负责大 EP 与 Attention INT8 量化相关优化 推理、大 EP、INT8、Attention、DeepSeek-R1、Qwen3
2025 H2 北京现场 参与字节 UniVL 模型迁移优化,适配 verl + Qwen2.5-VL 训练链路 UniVL、verl、Qwen2.5-VL、多模态 RL
2026 H1 上海现场 负责猛犸生成模型RL部分优化,DanceGRPO+MM后端+verl率先实现RL分数从0.4正常上升到0.8,支持客户RL训练,相关工作已有论文发表,相关代码合入verl社区,产出相关稼先文章两篇 生成模型、RL、后训练、论文
2026 H1 上海浦江现场 Intern-S1 Pro优化RL,推理性能翻倍;Intern-S2 Preview 模型 SFT的适配并优化 ,围绕GDN模块重点优化,从开箱0.12x H200 优化到 0.72x H200,产出稼先文章两篇,支持客户原生训练 Intern-S1 Pro、Intern-S2 Preview、RL、训练优化

代表项目

torch_npu 性能优化

2024 年下半年,在 PyTorch 框架组参与 torch_npu 性能优化工作。该阶段主要聚焦框架训练链路中的系统性开销,围绕 CPU 调度、算子初始化、参数组合和缓存利用进行优化。

主要工作包括:

  • 设计并优化细粒度绑核策略,降低 CPU 调度和线程竞争带来的性能损耗。
  • 优化路径 3 算子 Lazy Init 机制,减少初始化路径中的额外开销。
  • 参与训练参数寻优,提升典型模型场景下的吞吐表现。
  • 分析并优化 L2 Cache 使用,提升算子执行过程中的数据访问效率。

多模态模型 NPU 适配

2025 年上半年,在多模态组参与多个复杂模型在 Ascend NPU 平台上的迁移与训练适配,包括 OpenSoraPlan、DeepSeekVL2 和 GLM4.1V。

主要工作包括:

  • 适配多模态模型在 NPU 上的训练执行链路。
  • 基于 Megatron 与 FSDP 支撑大模型分布式训练。
  • 解决多模态模型中视觉、语言、融合模块带来的算子和显存问题。
  • 分析训练过程中的性能瓶颈与稳定性问题,并推动优化闭环。

DeepSeek-R1 与 Qwen3 推理攻关

2025 年上半年,参与苏州现场推理攻关,围绕 DeepSeek-R1 和 Qwen3 模型开展性能优化。

主要工作包括:

  • 支撑大规模推理场景下的模型部署与问题定位。
  • 参与大 EP 并行策略优化,提高专家模型推理效率。
  • 参与 Attention INT8 量化优化,降低推理计算和访存开销。
  • 针对端到端推理性能进行链路分析与优化。

UniVL 迁移与 verl 适配

2025 年下半年,参与北京现场模型迁移优化工作,主要围绕字节 UniVL 模型和 verl + Qwen2.5-VL 训练链路展开。

主要工作包括:

  • 迁移 UniVL 多模态模型至 NPU 训练环境。
  • 适配 verl 强化学习训练框架与 Qwen2.5-VL 模型。
  • 分析多模态 RL 训练中的性能与稳定性问题。
  • 推动模型训练链路在客户现场落地。

生成模型 RL 优化

2026 年上半年,参与上海现场生成模型 RL 优化,负责猛犸生成模型的 RL 部分,并已有相关论文发表。

主要工作包括:

  • 负责生成模型 RL 训练链路的适配与优化。
  • 分析 RL 阶段的训练性能、显存占用与通信开销。
  • 支撑论文相关实验与工程实现。
  • 推动生成模型后训练流程在 NPU 平台上的高效运行。

Intern 系列模型优化

2026 年上半年,参与上海浦江现场工作,优化 Intern-S1 Pro RL,并适配、优化 Intern-S2 Preview 模型。

主要工作包括:

  • 优化 Intern-S1 Pro 的 RL 训练链路。
  • 适配 Intern-S2 Preview 模型至目标训练环境。
  • 分析模型训练过程中的性能瓶颈。
  • 推动模型在 NPU 平台上的训练效率和稳定性提升。