跳转至

谭邵杰的计算机奇妙之旅

2025

2025¶

2025年11月25日
分类于 Artificial Intelligence
需要 13 分钟阅读时间

RL Algorithms: PPO-RLHF & GRPO-family

导言

RLHF 利用复杂的反馈回路，结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL（如 PPO）, 所以RLHF是RL的一种实践方式)
尽管DPO相对于PPO-RHLF更直接，但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好；
而RLVR算法在 2025年的GRPO提出后，其变种和应用范围迎来了井喷爆发。
本文详细介绍 PPO、GRPO以及DAPO。

⁵

必看好文⁶

2025年11月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

RL Next: Meta-Learning

导言

背景问题：传统RL的算法和奖励都要特殊设计，并且不同领域迁移性很差；
想法: 能不能系统自己迭代产生适合的RL算法
构建一个能够表征广泛强化学习规则的搜索空间，让系统通过多代智能体在复杂环境中的交互经验，元学习（Meta-Learning）出最优的强化学习更新规则。¹

2025年11月19日
分类于 Artificial Intelligence
需要 27 分钟阅读时间

Bridging the Gap: Challenges and Trends in Multimodal RL.

导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点：

说实话有点头大
多模态理解模型的主体就是LLM，LLM的RL基本半年后会迁移到多模态理解上，所以我要跟踪LLM RL的文章
多模态生成模型的RL偏向DPO为主的另一条路子；
多模态还涉及agent、具身智能，RL又有些不同；
文章多到看得头大。

2025年9月20日
分类于 Programming
需要 5 分钟阅读时间

Pytorch 2.5 ：Dataset & Dataloader

导言

数据集与数据加载器：学习如何使用torch.utils.data.Dataset和DataLoader来加载和处理数据。
数据预处理：介绍常用的数据预处理方法，如归一化、数据增强等。

2025年9月16日
分类于 OOW
需要 1 分钟阅读时间

Why Choose Quantitative Finance

导言

为什么之前认为金融只是调配资源，并不产生生产价值的我。也会想搞量化。

2025年5月25日
分类于 OOW
需要 1 分钟阅读时间

导言

第一次相亲(第二次见面)

2025年5月11日
分类于 OOW
需要 1 分钟阅读时间

导言

第一次相亲

2025年5月10日
分类于 OOW
需要 2 分钟阅读时间

导言

相亲是展现真实自我，寻找志趣相投另一半的过程。

2025年4月17日
分类于 Artificial Intelligence
需要 5 分钟阅读时间

Ideas around Vision-Language Models (VLMs) / Reasoning Models

导言

当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程，充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段，如先进行模态对齐的一阶段预训练，然后进行二阶段的参数微调。

排行榜:

2025年3月19日
分类于 Artificial Intelligence
需要 5 分钟阅读时间

torchrun

导言

vllm 的ray后端属实奇诡，ray stop有残留，flush打印被吞（虽然输出能标记ip，折叠重复，在master输出），ray集群的环境变量固定不变导致DP无法实现多机。

为此考虑使用torchrun实现多机并行。

看这篇，LLM实践：分布式训练框架的编程基础

写得太好了，由浅入深。