跳转至

2025

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

AI调研真实性问题以及应对:

  • 问题:现在的 Arxiv 时代,处于“狂野西部”状态。迭代极快,但也伴随着刷榜(SOTA-chasing)、数据污染、甚至直接编造数据。
  • 应对:
    • 看竞场:对于大模型,唯一的真理是“盲测竞技场 lmarena”的排名,而不是论文里的表格。
    • 看时间:AI论文日新月异,要注意发布时间;
    • 看落地:已有模型使用的方法,至少能证明方案是可行和正向有效的;
    • 看出身:是 Meta/Google/DeepMind 吗?是知名教授吗? -> 是,则细读。
    • 看开源:Hugging Face 上有模型吗?GitHub 有星吗? -> 有,可信度 +50%。
    • 看复现:Issue、Twitter 和 Reddit 上有人复现成功吗? -> 有,纳入核心趋势。
    • 看引用:如果这篇论文刚出不久就被很多高质量论文引用,说明其思路已被同行关注。

时刻关注前沿:

  1. GRPO/AdvancedResearch
  2. Awesome-MLLM-Reasoning-Collection
  3. Awesome-RL-for-LRMs
  4. Awesome-AgenticLLM-RL-Papers

Pytorch 2.5 :Dataset & Dataloader

导言

  • 数据集与数据加载器:学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
  • 数据预处理:介绍常用的数据预处理方法,如归一化、数据增强等。

Blind Date Tips

导言

相亲是展现真实自我,寻找志趣相投另一半的过程。