跳转至

笔记

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:

  • 说实话有点头大
  • 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
  • 多模态生成模型的RL偏向DPO为主的另一条路子;
  • 多模态还涉及agent、具身智能,RL又有些不同;
  • 文章多到看得头大。

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。

Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

排行榜:

Vllm Basic

导言

HW24年狠抓了训练,但是推理性能稍微落下,dsv3的出现,强化学习的爆火,反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。

  1. 一方面我需要大致了解vllm框架的设计,
  2. 另一方面,我主要需要关注vllm-ascend实现了哪些接口。