跳转至

VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时,最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是:训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例,以及新增的 TinyLLaVA-Video-R1-NextQAmultimodal-open-r1-8k-verified 两类数据,比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。

VLM RL dataset evaluation domain match

RL 训练数据域和评测数据域需要先对齐。

Core Judgment

结论先说:

  1. Geo3K 和 multimodal-open-r1-8k-verified 更像同一类数据:单图 + 文本,主要考察几何、数学或图文推理,适合对齐 AISBench 中的 MathVisionMMMU 数学相关子域、MMStar 等图文推理评测。
  2. TinyLLaVA-Video-R1-NextQA 是另一类数据:视频 + 文本,多选问答,偏事件、动作、时间关系和场景理解,应该对齐 VideoBenchVideo-MME 这类视频理解评测。
  3. 只看“都是多模态”是不够的。RLVR 类训练的收益通常最强地落在相同的:
  4. 模态:image / video / audio;
  5. 任务:几何、OCR、文档理解、视频事件问答、定位;
  6. 答案形态:数值、短文本、多选项、开放生成;
  7. verifier:正则抽取、exact match、VQA score、judge model;
  8. 输出契约\boxed{}<answer>、自然语言答案。

不要把序列长度理解错

下表的平均长度主要统计文本字段,不包含 image patch token 或 video frame token。对 VLM 来说,真实 prompt_length 还取决于模型 processor、图像分辨率、视频采样帧数和视觉 token merge 策略,最终应以 verl 日志中的 prompt_length/meanresponse_length/mean 为准。

Dataset Comparison

Dataset Scale Modality And Task Average Text Length Reward / Answer Form Match Judgment
hiyouga/geometry3k / Geo3K 3,002 total: train 2,101, validation 300, test 6012 Single image + text geometry VQA. 原始题目多为短几何题、图中求角度/长度/面积。 HF Viewer 全量统计:problem 平均约 58.0 charsanswer 平均约 3.8 chars。verl 预处理会额外追加约 214 chars / 44 cl100k tokens 的思考与 \boxed{} 指令。 verl 样例标记 ability="math",用规则 reward 匹配 ground_truth,要求最终答案放入 \boxed{}3 适合图文数学/几何评测。不适合期待 VideoBench、TextVQA、DocVQA 上明显提升。
Zhang199/TinyLLaVA-Video-R1-training-data / NextQA 5,496 条 0-30s NextQA RL 样本,另有 16 条 cold-start CoT 标注4 Video + text multiple-choice QA. 题型集中在 why / what / how / where 等视频事件理解问题。 官方 JSONL 精确统计:prompt 平均 159.5 chars / 43.6 cl100k tokens,短答案平均 18 chars / 6 tokens,prompt+answer 平均 49.6 tokens,p95 60 tokens。16 条 cold-start 平均 prompt+answer 182.3 tokens 短答案为 <answer>X</answer>;cold-start 含 <think><answer>。奖励适合多选 exact match 或 answer tag 抽取。 适合视频理解评测,如 AISBench VideoBenchVideo-MME。不应作为 Geo3K/MathVision 提升的主要证据。
lmms-lab/multimodal-open-r1-8k-verified 7,689 train examples5 Single image + text reasoning. Dataset card 只给字段结构;从公开样例看,主体是图文数学/几何推理,带可验证答案。 HF Viewer 全量统计:problem 平均 161.0 charssolution 平均 672.3 chars,合计约 833.2 charssolution 最长可到 28,539 chars,存在极长尾。 solution 通常包含 <think><answer>,更接近带思考链的 RL/SFT 混合材料;若用于 RL,需要明确只用 answer tag 做 reward,还是把 CoT 当参考。 和 Geo3K 最接近,更适合 MathVision / MMMU math / MMStar 这类图文推理评测。长度长尾要单独处理。

规模不是唯一变量

multimodal-open-r1-8k-verified 和 NextQA 的样本量都约为 Geo3K train split 的 2.6-3.7 倍,但两者提升的能力方向不同。更多样本不等于更通用的评测收益;如果 verifier 和评测任务错位,RL 可能只是强化输出格式或答案抽取习惯。

AISBench Mapping

AISBench 的数据集准备文档把开源评测分成 LLM、Multimodal、多轮对话等类别,其中多模态类包括 textvqavideobenchMMMUMMMU_ProInfoVQADocVQAMMStarVideo-MMEOCRBench_v2RealWorldQAMathVisionRefCOCO 等。1

RL Training Data Best AISBench Evaluation Match Medium Match Weak Or Mismatched
Geo3K MathVision,自定义 Geo3K eval,MMMU 数学/几何子域 MMStar,部分 RealWorldQA 几何/空间题 VideoBenchVideo-MMETextVQADocVQAOCRBench_v2RefCOCO
multimodal-open-r1-8k-verified MathVision,Geo3K-style eval,MMMU 数学/图表推理子域 MMStar,部分 RealWorldQA 视频、OCR、文档、定位任务
TinyLLaVA-Video-R1-NextQA VideoBenchVideo-MME 可能泛化到部分动态场景问答 Geo3K、MathVision、OCR、文档理解、图像定位

换句话说,如果目标是证明“RL 后模型在 AISBench 上变强”,建议至少拆成两条实验线:

  1. Image Math RL 线:Geo3K + multimodal-open-r1-8k-verified,评测 MathVisionMMMU math-like subset、MMStar,再加一个 TextVQA/DocVQA 作为负向迁移观测。
  2. Video QA RL 线TinyLLaVA-Video-R1-NextQA,评测 VideoBenchVideo-MME,再加 MathVision/Geo3K 作为跨域 sanity check。

Why Domain Match Matters

RLVR 的强化信号不是“抽象智能”本身,而是某个环境里可验证答案的反馈。对多模态模型来说,这个环境至少由四层组成:

  • Perception Contract:图像、视频帧、OCR 文本、图表、几何图是否被同一种视觉处理路径编码。
  • Reasoning Contract:模型是在做几何推导、常识问答、视频事件排序,还是文档字段抽取。
  • Answer Contract:答案是 A/B/C/D、数值、短词、框选坐标,还是开放自然语言。
  • Reward Contract:reward 是 exact match、VQA soft score、正则解析、judge model,还是任务专用 metric。

只要其中一层错位,训练和评测就可能出现下面几种现象:

  • 格式提升但能力不升:模型更会输出 <answer>\boxed{},但评测集需要自由文本或 OCR 字段。
  • 推理提升但感知不升:图文几何 RL 可能改善数学解题模板,却不会自动改善视频动作识别。
  • 短答案奖励过拟合:多选题 reward 容易把模型推向选项字母预测,未必提升开放问答。
  • 视觉 token 分布错位:视频 RL 的真实 prompt length 常由帧数主导,和单图几何题的上下文预算不同。

Practical Plan

建议用一个小而清晰的矩阵验证,而不是把所有数据混成一锅:

Experiment RL Data Eval Data Purpose
Baseline None MathVision / MMMU / MMStar / VideoBench / Video-MME / TextVQA 建立原始能力面,避免只看单一指标。
Geo3K-only Geo3K MathVision + Geo3K-style eval 验证 verl 官方样例线是否能稳定复现图文几何提升。
Image-math mix Geo3K + multimodal-open-r1-8k-verified MathVision / MMMU math / MMStar 验证更大图文推理数据是否带来更稳的数学视觉收益。
Video-only TinyLLaVA-Video-R1-NextQA VideoBench / Video-MME 验证视频事件问答收益,不和图文数学混淆。
Cross-domain check 每个 RL checkpoint 非同域评测 检查是否出现遗忘、格式污染或无效迁移。

最小可行评测

如果算力有限,先不要同时训图文数学和视频 QA。更好的最小闭环是:Geo3K baseline -> Geo3K RL -> MathVision/MMMU 评测,以及 NextQA baseline -> NextQA RL -> VideoBench/Video-MME 评测。这两条线分别证明“图文数学”和“视频理解”,结论更干净。

Follow-Up Questions

后续真正影响实验可信度的问题主要有这些:

  1. verl 视频输入链路是否真的打通TinyLLaVA-Video-R1-NextQA 是视频数据,不能只把 <image> 占位符当成单图处理。需要明确是传原视频、抽帧列表,还是预先编码帧。
  2. 视觉 token 预算如何记录:表中的文本长度很短,但视频帧会显著拉长真实 prompt。必须在训练日志里记录 prompt_length/meanprompt_length/max 和 clip ratio。
  3. answer parser 是否统一:Geo3K 用 \boxed{},NextQA 和 open-r1 数据用 <answer>。如果评测端抽取逻辑不统一,指标会混入格式误差。
  4. CoT 是否参与 rewardmultimodal-open-r1-8k-verified 有较长 solution。如果只做 RLVR,reward 应聚焦 final answer;如果把 CoT 当监督,则更像 SFT/RFT 混合。
  5. AISBench 是否需要自定义 dataset config:AISBench 页面没有直接列 Geo3K 或 NextQA;若要做严格同源评测,可能需要按 AISBench 自定义数据集接口接入。
  6. 混合训练是否需要 curriculum:图文几何和视频问答混训时,reward 分布、视觉 token 长度和答案格式都不同,建议先单域收敛,再尝试按 domain tag 或比例采样混合。

Summary

你的理解大方向是对的:RL 数据集类型和评测类型越一致,越容易看到有效提升。但这里的“类型”不能只写成“多模态”,而要拆到更细:

  • Geo3Kmultimodal-open-r1-8k-verified 属于图文数学/几何推理,优先看 MathVision、MMMU math-like subset、MMStar。
  • TinyLLaVA-Video-R1-NextQA 属于视频问答,优先看 VideoBench、Video-MME。
  • 如果用 AISBench 做最终报告,最好同时放一个跨域负例,证明提升不是格式污染,而是真正在目标能力域内发生。

References


  1. AISBench Benchmark 数据集准备指南 

  2. hiyouga/geometry3k Hugging Face dataset. 本文规模和字段长度参考 Hugging Face Dataset Viewer statistics endpoint:https://datasets-server.huggingface.co/statistics?dataset=hiyouga/geometry3k&config=default&split=...。 

  3. verl examples/data_preprocess/geo3k.py 

  4. Zhang199/TinyLLaVA-Video-R1-training-data 

  5. lmms-lab/multimodal-open-r1-8k-verified. 本文字段长度参考 Hugging Face Dataset Viewer statistics endpoint:https://datasets-server.huggingface.co/statistics?dataset=lmms-lab/multimodal-open-r1-8k-verified&config=default&split=train。 

评论