VLM RL Evaluation Datasets

导言

想用 AISBench 评测多模态 RL 后模型效果时，最容易误判的是把“多模态”当作一个整体类别。更精确的判断应该是：训练数据、奖励函数、输出格式和评测集必须在同一个能力域内闭合。

本文围绕 verl 当前常见的 Geo3K 多模态 RL 样例，以及新增的 TinyLLaVA-Video-R1-NextQA、multimodal-open-r1-8k-verified 两类数据，比较它们的规模、文本长度、模态、任务类型和 AISBench 评测匹配关系。

VLM RL dataset evaluation domain match — RL 训练数据域和评测数据域需要先对齐。

Core Judgment¶

结论先说：

Geo3K 和 multimodal-open-r1-8k-verified 更像同一类数据：单图 + 文本，主要考察几何、数学或图文推理，适合对齐 AISBench 中的 MathVision、MMMU 数学相关子域、MMStar 等图文推理评测。
TinyLLaVA-Video-R1-NextQA 是另一类数据：视频 + 文本，多选问答，偏事件、动作、时间关系和场景理解，应该对齐 VideoBench、Video-MME 这类视频理解评测。
只看“都是多模态”是不够的。RLVR 类训练的收益通常最强地落在相同的：
模态：image / video / audio；
任务：几何、OCR、文档理解、视频事件问答、定位；
答案形态：数值、短文本、多选项、开放生成；
verifier：正则抽取、exact match、VQA score、judge model；
输出契约：\boxed{}、<answer>、自然语言答案。

不要把序列长度理解错

下表的平均长度主要统计文本字段，不包含 image patch token 或 video frame token。对 VLM 来说，真实 prompt_length 还取决于模型 processor、图像分辨率、视频采样帧数和视觉 token merge 策略，最终应以 verl 日志中的 prompt_length/mean、response_length/mean 为准。

Dataset Comparison¶

Dataset	Scale	Modality And Task	Average Text Length	Reward / Answer Form	Match Judgment
`hiyouga/geometry3k` / Geo3K	3,002 total: train 2,101, validation 300, test 601²	Single image + text geometry VQA. 原始题目多为短几何题、图中求角度/长度/面积。	HF Viewer 全量统计：`problem` 平均约 58.0 chars，`answer` 平均约 3.8 chars。verl 预处理会额外追加约 214 chars / 44 cl100k tokens 的思考与 `\boxed{}` 指令。	verl 样例标记 `ability="math"`，用规则 reward 匹配 `ground_truth`，要求最终答案放入 `\boxed{}`。³	适合图文数学/几何评测。不适合期待 VideoBench、TextVQA、DocVQA 上明显提升。
`Zhang199/TinyLLaVA-Video-R1-training-data` / NextQA	5,496 条 0-30s NextQA RL 样本，另有 16 条 cold-start CoT 标注⁴	Video + text multiple-choice QA. 题型集中在 why / what / how / where 等视频事件理解问题。	官方 JSONL 精确统计：prompt 平均 159.5 chars / 43.6 cl100k tokens，短答案平均 18 chars / 6 tokens，prompt+answer 平均 49.6 tokens，p95 60 tokens。16 条 cold-start 平均 prompt+answer 182.3 tokens。	短答案为 `<answer>X</answer>`；cold-start 含 `<think>` 和 `<answer>`。奖励适合多选 exact match 或 answer tag 抽取。	适合视频理解评测，如 AISBench `VideoBench`、`Video-MME`。不应作为 Geo3K/MathVision 提升的主要证据。
`lmms-lab/multimodal-open-r1-8k-verified`	7,689 train examples⁵	Single image + text reasoning. Dataset card 只给字段结构；从公开样例看，主体是图文数学/几何推理，带可验证答案。	HF Viewer 全量统计：`problem` 平均 161.0 chars，`solution` 平均 672.3 chars，合计约 833.2 chars；`solution` 最长可到 28,539 chars，存在极长尾。	`solution` 通常包含 `<think>` 和 `<answer>`，更接近带思考链的 RL/SFT 混合材料；若用于 RL，需要明确只用 answer tag 做 reward，还是把 CoT 当参考。	和 Geo3K 最接近，更适合 MathVision / MMMU math / MMStar 这类图文推理评测。长度长尾要单独处理。

规模不是唯一变量

multimodal-open-r1-8k-verified 和 NextQA 的样本量都约为 Geo3K train split 的 2.6-3.7 倍，但两者提升的能力方向不同。更多样本不等于更通用的评测收益；如果 verifier 和评测任务错位，RL 可能只是强化输出格式或答案抽取习惯。

AISBench Mapping¶

AISBench 的数据集准备文档把开源评测分成 LLM、Multimodal、多轮对话等类别，其中多模态类包括 textvqa、videobench、MMMU、MMMU_Pro、InfoVQA、DocVQA、MMStar、Video-MME、OCRBench_v2、RealWorldQA、MathVision、RefCOCO 等。¹

RL Training Data	Best AISBench Evaluation Match	Medium Match	Weak Or Mismatched
Geo3K	`MathVision`，自定义 Geo3K eval，`MMMU` 数学/几何子域	`MMStar`，部分 `RealWorldQA` 几何/空间题	`VideoBench`、`Video-MME`、`TextVQA`、`DocVQA`、`OCRBench_v2`、`RefCOCO`
`multimodal-open-r1-8k-verified`	`MathVision`，Geo3K-style eval，`MMMU` 数学/图表推理子域	`MMStar`，部分 `RealWorldQA`	视频、OCR、文档、定位任务
`TinyLLaVA-Video-R1-NextQA`	`VideoBench`、`Video-MME`	可能泛化到部分动态场景问答	Geo3K、`MathVision`、OCR、文档理解、图像定位

换句话说，如果目标是证明“RL 后模型在 AISBench 上变强”，建议至少拆成两条实验线：

Image Math RL 线：Geo3K + multimodal-open-r1-8k-verified，评测 MathVision、MMMU math-like subset、MMStar，再加一个 TextVQA/DocVQA 作为负向迁移观测。
Video QA RL 线：TinyLLaVA-Video-R1-NextQA，评测 VideoBench、Video-MME，再加 MathVision/Geo3K 作为跨域 sanity check。

Why Domain Match Matters¶

RLVR 的强化信号不是“抽象智能”本身，而是某个环境里可验证答案的反馈。对多模态模型来说，这个环境至少由四层组成：

Perception Contract：图像、视频帧、OCR 文本、图表、几何图是否被同一种视觉处理路径编码。
Reasoning Contract：模型是在做几何推导、常识问答、视频事件排序，还是文档字段抽取。
Answer Contract：答案是 A/B/C/D、数值、短词、框选坐标，还是开放自然语言。
Reward Contract：reward 是 exact match、VQA soft score、正则解析、judge model，还是任务专用 metric。

只要其中一层错位，训练和评测就可能出现下面几种现象：

格式提升但能力不升：模型更会输出 <answer> 或 \boxed{}，但评测集需要自由文本或 OCR 字段。
推理提升但感知不升：图文几何 RL 可能改善数学解题模板，却不会自动改善视频动作识别。
短答案奖励过拟合：多选题 reward 容易把模型推向选项字母预测，未必提升开放问答。
视觉 token 分布错位：视频 RL 的真实 prompt length 常由帧数主导，和单图几何题的上下文预算不同。

Practical Plan¶

建议用一个小而清晰的矩阵验证，而不是把所有数据混成一锅：

Experiment	RL Data	Eval Data	Purpose
Baseline	None	MathVision / MMMU / MMStar / VideoBench / Video-MME / TextVQA	建立原始能力面，避免只看单一指标。
Geo3K-only	Geo3K	MathVision + Geo3K-style eval	验证 verl 官方样例线是否能稳定复现图文几何提升。
Image-math mix	Geo3K + `multimodal-open-r1-8k-verified`	MathVision / MMMU math / MMStar	验证更大图文推理数据是否带来更稳的数学视觉收益。
Video-only	`TinyLLaVA-Video-R1-NextQA`	VideoBench / Video-MME	验证视频事件问答收益，不和图文数学混淆。
Cross-domain check	每个 RL checkpoint	非同域评测	检查是否出现遗忘、格式污染或无效迁移。

最小可行评测

如果算力有限，先不要同时训图文数学和视频 QA。更好的最小闭环是：Geo3K baseline -> Geo3K RL -> MathVision/MMMU 评测，以及 NextQA baseline -> NextQA RL -> VideoBench/Video-MME 评测。这两条线分别证明“图文数学”和“视频理解”，结论更干净。

Follow-Up Questions¶

后续真正影响实验可信度的问题主要有这些：

verl 视频输入链路是否真的打通：TinyLLaVA-Video-R1-NextQA 是视频数据，不能只把 <image> 占位符当成单图处理。需要明确是传原视频、抽帧列表，还是预先编码帧。
视觉 token 预算如何记录：表中的文本长度很短，但视频帧会显著拉长真实 prompt。必须在训练日志里记录 prompt_length/mean、prompt_length/max 和 clip ratio。
answer parser 是否统一：Geo3K 用 \boxed{}，NextQA 和 open-r1 数据用 <answer>。如果评测端抽取逻辑不统一，指标会混入格式误差。
CoT 是否参与 reward：multimodal-open-r1-8k-verified 有较长 solution。如果只做 RLVR，reward 应聚焦 final answer；如果把 CoT 当监督，则更像 SFT/RFT 混合。
AISBench 是否需要自定义 dataset config：AISBench 页面没有直接列 Geo3K 或 NextQA；若要做严格同源评测，可能需要按 AISBench 自定义数据集接口接入。
混合训练是否需要 curriculum：图文几何和视频问答混训时，reward 分布、视觉 token 长度和答案格式都不同，建议先单域收敛，再尝试按 domain tag 或比例采样混合。

Summary¶

你的理解大方向是对的：RL 数据集类型和评测类型越一致，越容易看到有效提升。但这里的“类型”不能只写成“多模态”，而要拆到更细：

Geo3K 与 multimodal-open-r1-8k-verified 属于图文数学/几何推理，优先看 MathVision、MMMU math-like subset、MMStar。
TinyLLaVA-Video-R1-NextQA 属于视频问答，优先看 VideoBench、Video-MME。
如果用 AISBench 做最终报告，最好同时放一个跨域负例，证明提升不是格式污染，而是真正在目标能力域内发生。

References¶

AISBench Benchmark 数据集准备指南 ↩
hiyouga/geometry3k Hugging Face dataset. 本文规模和字段长度参考 Hugging Face Dataset Viewer statistics endpoint：https://datasets-server.huggingface.co/statistics?dataset=hiyouga/geometry3k&config=default&split=...。 ↩
verl examples/data_preprocess/geo3k.py ↩
Zhang199/TinyLLaVA-Video-R1-training-data ↩
lmms-lab/multimodal-open-r1-8k-verified. 本文字段长度参考 Hugging Face Dataset Viewer statistics endpoint：https://datasets-server.huggingface.co/statistics?dataset=lmms-lab/multimodal-open-r1-8k-verified&config=default&split=train。 ↩