跳转至

Artificial Intelligence

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

AI调研真实性问题以及应对:

  • 问题:现在的 Arxiv 时代,处于“狂野西部”状态。迭代极快,但也伴随着刷榜(SOTA-chasing)、数据污染、甚至直接编造数据。
  • 应对:
    • 看竞场:对于大模型,唯一的真理是“盲测竞技场 lmarena”的排名,而不是论文里的表格。
    • 看时间:AI论文日新月异,要注意发布时间;
    • 看落地:已有模型使用的方法,至少能证明方案是可行和正向有效的;
    • 看出身:是 Meta/Google/DeepMind 吗?是知名教授吗? -> 是,则细读。
    • 看开源:Hugging Face 上有模型吗?GitHub 有星吗? -> 有,可信度 +50%。
    • 看复现:Issue、Twitter 和 Reddit 上有人复现成功吗? -> 有,纳入核心趋势。
    • 看引用:如果这篇论文刚出不久就被很多高质量论文引用,说明其思路已被同行关注。

时刻关注前沿:

  1. GRPO/AdvancedResearch
  2. Awesome-MLLM-Reasoning-Collection
  3. Awesome-RL-for-LRMs
  4. Awesome-AgenticLLM-RL-Papers

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

AI Post Traning: RL & RLHF & DPO

导言

  • Deepseek 的 GRPO 方法展示了强化学习的潜能。
  • RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
  • DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。
  • Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

AI Model Visualization

导言

作为一个AI初学者,总是遇到以下场景:

  1. 客户正在基于NV开发一个AI模型,需要同步的做昇腾适配。手上只有NV下的代码。
  2. 往往很难将论文里的AI模型的图,和代码里的每一层以及参数对应起来。

设计期望:

  1. 在模型开发的过程中,能简单插入,来明确当前模块的大致信息。
  2. 名称,类型(卷积层,池化层),输入/输出/参数, 执行的时间(第一次)。
  3. 可视化
  4. 格式兼容cpprinter。
  5. 能体现出TP,CP等并行策略的效果。

大致思路:

  • 还是借助chrome://tracing格式,来设计类似PyPrinter的工具。
  • 早期可以使用VizTracer代替。