论文题目：Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

发表期刊：2025 The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)（CCF-A）

论文作者：Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu

作者单位：新加坡南洋理工大学S-Lab，腾讯，清华大学，南京大学

6 论文讨论以及问题

2025-6-18

相对于轻量级大模型的开销(1.8B)，轻量级的视觉检测模型的参数仅为1.9M(yolov5n)、2.6M(yolov11n)，多模态模型CLIP-ViT-B/32参数量也仅为88M，因此实现计算开销相对较小。复杂度可以通过计算图像熵以及视觉模型检测的特征多样性（目标数量、场景复杂度等）再结合文本（问题）长度以及语法结构等通过拼接二者再使用一个简单的MLP计算复杂度来实现。

可以在别人的数据集上标注上复杂度即可。

另外在推理阶段，可以设置异常检测机制或者任务达标判断机制，强制删除或者增长推理路径长度

2025-5-30

动态调整长链搜索-使用智能优化算法或者简单的视觉模型计算

智能优化算法等处理比较复杂，引入额外的计算开销，并且复杂度难以定义，视觉模型也难以使用

简化总结智能体-使用轻量化模型

1. 背景

1.1 问题

大型语言模型 (LLMs) 通过增强推理能力（例如 Chain-of-Thought）提高了性能和可靠性。然而，对于视觉-语言任务而言，高质量的长链推理数据和优化的训练流程仍然探索不足。

提高LLM的推理能力一直是广泛研究的焦点。但是多模态LLM中的推理潜力几乎没有被探索。大多数方法的目的是加强推理阶段的逻辑推理能力。其他方法使用思想链数据优化模型参数，使模型能够模仿人类推理过程。然而，这些方法对当前通用MLLM提出了重大挑战，因为它们要求模型在保留先前能力的同时开发推理技能，这通常只会导致有限的性能提升。此外，缺乏结构化的高质量训练数据阻碍了具有高级推理能力的训练模型。

视觉推理数据的收集成本高且需要大量人工标注，缺乏有效的数据生成流程。此外，直接将链式思维（Chain-of-Thought）应用于MLLMs的效果有限，表明需要更有效的训练方法来提升模型的视觉推理能力。

1.2 本文贡献

提出了早期尝试Insight-V

可扩展地生成用于复杂多模态任务的长而鲁棒的推理数据；
构建一个有效的训练流程来增强多模态大型语言模型 (MLLMs) 的推理能力。

数据生成方法：

设计了一个两步流程，采用渐进策略来生成足够长且多样的推理路径。

使用多粒度评估方法来确保数据质量，整个过程无需人工。

训练流程方法：

发现直接用长而复杂的推理数据监督 MLLMs 效果不理想，设计了一个多智能体系统来解决这个问题，包括：

一个专门执行长链推理的推理智能体 (reasoning agent)。
一个经过训练用于判断和总结推理结果的总结智能体 (summary agent)。
引入迭代式 DPO (Direct Preference Optimization) 算法来增强推理智能体的生成稳定性和质量。

DPO:强化学习PPO\DPO\GPRO - DJ的小网站

实验结果：

在需要视觉推理的挑战性多模态基准测试上展示了显著的性能提升。
得益于多智能体系统，Insight-V 也能在侧重感知的多模态任务上保持或提升性能。

Insight-V工作流程

2. 结构化推理数据的构造

以往的研究通过结构化数据和优化训练流程来提升语言模型的推理能力，但在视觉推理方面，由于缺乏大规模高质量数据集和有效的训练策略，进展有限。为了解决这个问题，作者提出了一个结构化的推理数据生成流程，旨在使用渐进式生成过程和多粒度评估来生成高质量的长链推理数据。这种可伸缩的方法能够生成高质量的数据，从而有效地增强模型的推理能力。

Insight-V的数据生成流程。推理过程通过推理生成器逐步生成，然后输入多粒度评估系统，以确保高质量的推理。

2.1 渐进式长链推理数据生成

对于每个输入查询，首先使用推理生成器以JSON格式生成结构化推理过程来解决问题。

在每个步骤中，推理生成器提供当前步骤的简要摘要、详细的推理响应以及下一步骤的操作。

如果Action是继续，则模型在下一次迭代中继续进行额外的推理步骤；

如果Action是摘要，则模型在后续迭代中基于完整的推理过程生成最终摘要和答案。

其表达如下：

R_t=M(I,Q,[R_1...R_{t-1}],A), \\ R_{ans}=M(I,Q,[R_1...R_n]),

其中 R_t和 R _{ans} 分别表示第t步的响应和最终答案， R_i表示模型在第i步生产的推理，n表示总推理步骤，A是前一步确定的动作。

通过重复这个过程N次，我们可以迭代地对每个查询的N个结构化响应进行采样。调整生成参数以促进模型生成具有各种信息和步骤的输出出，以能够为每个问题确定最有效的推理链。

2.2 多粒度评估

在获得结构化的回复后，利用评估管道来确保数据质量。

首先应用强LLM，如Qwen 2，用于直接答案过滤，排除答案不正确的推理链。
将剩余的推理过程（提供了图像、问题、推理路径和基础事实答案）输入到推理路径评分代理 (Reasoning Path Scoring Agent) 中，该代理使用先进的 MLLM (如 Qwen2-VL) 评估推理路径。
评分依据：推理路径的步骤准确性和细节水平。
聚合每个问题的所有响应进行统一处理，模型生成 1 到 100 的分数。

优势：通过自动化生成、评估和排名策略，无需人工标注，提高了推理数据集的可扩展性和质量。

通过以上方式，构建了一个结构化的、高质量的数据集，为每个问题提供了详细的推理。

3. 模型设计

在构建数据集后，作者开发了一个多Agent框架，通过协作代理交互来增强整体推理能力。具体来说，首先训练一个推理Agent，为每个问题生成一个详细的推理过程。然后，总结智能体则根据推理过程的关键信息选择性地回答问题。这两个智能体共同协作，有效地提高推理性能。

通过将任务分解为推理和总结，两个智能体协作以增强整体推理能力。

3.1 Reasoning Agent

以前的方法通常将推理链和问答结合在一个过程中，生成长链推理过程可能会引入错误，而基于有缺陷的推理直接回答问题通常会导致更差的结果。
提出一个专门的推理代理，旨在生成一个详细的，一步一步的推理过程，以响应输入查询。
使用评分最高的推理路径数据集进行训练，以增强其生成详细、结构化推理的能力。

3.2 Summary Agent

总结智能体在推理智能体生成多步推理后，提供对推理过程的连贯理解，引导模型得出最终答案。
由于推理代理生成的响应可能包含错误，开发了一种对推理路径中的错误鲁棒的概括模型，根据需要选择性地合并或忽略元素。这种方法最大限度地提高了推理模型的有效性，同时最大限度地降低了引入误导信息的风险。
为增强总结智能体对推理路径错误的鲁棒性，训练数据集包含最优推理过程和有缺陷的推理过程(从不同的分数范围中提取有缺陷的响应，以创建具有不同错误水平的数据集，从而促使模型在各种粒度下评估推理过程)，促使模型对推理质量进行批判性评估。
还包含推理智能体生成的问答对，以及标准的问答数据，以保持其原始的多模态感知能力。

4. 训练流程

Insight-V采用设计简单高效的两阶段策略，首先对两个智能体进行监督微调，然后应用直接偏好优化（DPO）增强推理智能体的推理能力。

4.1 监督微调

使用高质量的图像-文本数据集（这些数据来自各种开源学术数据集，包括LLaVA-NeXT，Cauldron和Cambrian-1）训练出一个基础良好的多模态模型，该基础模型具备通用的视觉问答和视觉语言技能。
使用相应的构建好的数据集对推理智能体和总结智能体进行有监督微调，使其承担各自指定的角色。

推理智能体使用推理数据集学习逐步推理。
总结智能体使用包含最优/有缺陷推理和标准问答数据的数据集进行训练，保持感知能力并学习批判性评估。

4.2 强化学习增强-直接偏好优化（DPO）

将 DPO(PPO算法简化，通过) 应用于推理模型，使其与人类推理过程更一致。

PPO是一种基于策略梯度的强化学习算法，旨在通过最大化累积奖励来优化策略。它通过引入剪切损失函数（clipped surrogate objective），限制策略更新的幅度，从而确保训练过程中的策略更新稳定性。PPO的核心优化目标是在给定环境中找到最有效的行动策略，以获得最大化的奖励信号。
PPO的局限性：
复杂性高：PPO需要同时维护和训练多个模型，包括策略模型（Actor Model）、奖励模型（Reward Model）、评论模型（Critic Model）和参考模型（Reference Model），这使得整个训练过程复杂且计算资源消耗大。
训练效率低：PPO需要在线采样数据，即在训练过程中不断地与环境交互以收集数据，这导致训练效率较低，尤其是在数据量有限的情况下。
奖励信号稀疏：在一些任务中，奖励信号可能非常稀疏，即只有在特定的条件下才会给出奖励，这使得PPO难以有效地学习和优化策略。
DPO:
DPO的核心思想是通过重参数化将奖励函数隐式包含在策略中，从而避免显式建模奖励函数。具体来说，DPO将PPO的最优策略形式进行对数化和重排，得到了奖励函数的形式，然后将其代入偏好模型中，消去了分区函数Z(x)，从而得到了DPO的目标函数。
DPO直接优化策略模型，而不需要显式地训练奖励模型。它通过比较两个模型的logits（概率之前的原始输出分数），增加首选响应的logits，减少非首选响应的logits，从而直接调整策略。这种方法不仅简化了训练过程，还提高了训练效率。
DPO只需要加载两个模型：策略模型和参考模型，而不需要加载奖励模型和评论模型。这大大减少了模型的复杂性和计算资源的消耗，使得训练过程更加高效。
DPO不需要在线采样数据，而是直接使用标注好的偏好数据进行训练。这使得DPO在训练过程中可以更高效地利用数据，减少了数据采集和处理的时间。

DPO 通过直接训练偏好数据 (x^{(i)}, y_w^{(i)}, y_l^{(i)}) (偏好响应 y_w 和非偏好响应 y_l 对于输入 x) 来优化模型输出。

由于人类偏好的真实分布无法直接观察到，因此用潜在奖励模型 r^*(x, y) 来近似人类偏好的真实分布。使用 Bradley-Terry (BT) 模型建模人类偏好分布 p^*(y_1 \succ y_2 | x) = \sigma(r^*(x, y_1) - r^*(x, y_2))，并通过最小化负对数似然来估计奖励模型参数 L_R(r_\phi, D) = -E_{(x,y_w,y_l)\sim D} [\log \sigma(r_\phi(x, y_w)-r_\phi(x, y_l))] ，其中r是一个参数化的报酬模型。

传统的 DPO 是离线的，在DPO训练过程中，随着模型参数的不断变化，离线生成的偏好数据集可能会逐渐偏离模型的当前分布。因此本文采用迭代 DPO ，进行多轮 DPO 训练和采样，使用前一阶段的模型生成新的偏好数据，更好地近似在线设置，增强推理能力。此方法涉及训练一系列模型M1，...，Mt，其中每个后续模型Mt+1利用由第t个模型生成的偏好数据Dt。将完整的训练过程应用于微调的推理代理，使模型能够更好地与人类偏好保持一致，并为复杂问题生成结构化的详细推理步骤，从而更有效地支持Summary agent。

5 实验与结论

Insight-V系统被集成到LLaVA-NeXT模型中，并构建了一个基于Qwen-2.5-7B的强基线模型，以验证其在提升视觉推理基准测试中的性能。

在7个基准进行评估实验，包括一般推理和特定任务的推理评估。Insight-V在应用于LLaVA-NeXT和我们的基线模型时表现出显着的有效性和普遍性，远远超过其他最先进的

MMMU: 一个面向专家通用人工智能的大规模跨学科多模态理解和推理的基准测试
MMbench: OpenCompass 研究团队自建的视觉语言模型评测数据集，可实现从感知到认知能力逐级细分评估
MME: 腾讯团队提出的用于多模态大型语言模型的综合评估基准
ChartQA: 一个面向图表数据问答的基准测试项目
MMStar: 一个多模态能力评估框架，能够有效地揭示和消除数据泄露和视觉依赖性缺失的问题
MathVista: 微软发布的多模态数学推理基准数据集

数据生成：使用Insight-V的数据生成管道，生成了200K推理数据样本，用于训练推理智能体。总结智能体的训练数据集包含1.2M图像，其中包含不同水平错误的推理样本。

训练流程：

监督微调（SFT）：推理智能体和总结智能体分别使用推理数据集和总结数据集进行监督微调。

直接偏好优化（DPO）：对推理智能体应用迭代DPO算法，进行3轮DPO训练，每轮使用约15K偏好数据。

Insight-V的有效性：

Insight-V系统显著提升了多模态大语言模型在视觉推理任务中的表现，无论是在通用推理、图表理解和数学问题解决等领域，都取得了显著的性能提升。
通过多智能体系统和迭代DPO算法，Insight-V能够有效地分解推理和总结过程，提升模型的推理能力和鲁棒性。

数据规模的重要性：

实验表明，推理智能体从大规模数据中受益显著。随着数据量的增加，推理智能体的性能得到提升，从而为总结智能体提供了更有价值的见解。

DPO算法的优势：

相比直接使用外部数据集（如RLAIF-V），基于模型生成的偏好数据集在提升推理准确性方面更为有效。
迭代DPO算法通过多轮训练和采样，逐步优化模型的推理能力，进一步提升了模型的性能。

多智能体系统的优越性：

多智能体系统通过将推理和总结分开处理，显著提升了模型的推理能力和鲁棒性。与直接应用链式思维或单模型方法相比，多智能体系统在复杂推理任务中表现更为出色。

对基础视觉感知的影响：

Insight-V在提升推理能力的同时，并未削弱模型的基础视觉感知能力。在需要基本视觉理解的基准测试中，Insight-V依然保持了良好的性能，甚至实现了改进。

尽管Insight-V在提升MLLMs的推理能力方面取得了显著进展，但作者也指出了该方法的一些局限性，如采样效率有待提高、模型规模的可扩展性问题以及推理质量的整体提升空间等。未来的工作将集中在以下几个方面：

提升采样效率：通过更高效的采样方法，减少冗余样本，提高数据生成的效率。
优化模型规模：探索更小的模型规模，以提高系统的可扩展性和成本效益。
进一步提升推理质量：通过引入更复杂的推理策略和优化方法，进一步提升模型的推理能力。

Menu

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

6 论文讨论以及问题

2025-6-18

2025-5-30

动态调整长链搜索-使用智能优化算法或者简单的视觉模型计算

简化总结智能体-使用轻量化模型

1. 背景

1.1 问题

1.2 本文贡献

2. 结构化推理数据的构造

2.1 渐进式长链推理数据生成

2.2 多粒度评估

3. 模型设计

3.1 Reasoning Agent

3.2 Summary Agent

4. 训练流程

4.1 监督微调

4.2 强化学习增强-直接偏好优化（DPO）

5 实验与结论

Comment

论文汇报0：Retentive Network: A Successor to Transformer for Large Language Models

论文汇报5：DEST-GNN: A double-explored spatio-temporal graph neural network for multi-site intra-hour PV power forecasting

论文汇报4：Graph Spatio-Temporal Networks for Condition Monitoring ofWind Turbine

Grounded Chain-of-Thought for Multimodal Large Language Models

论文汇报1：RMT: Retentive Networks Meet Vision Transformers

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

论文汇报2:Higher-Order Attribute-Enhancing Heterogeneous Graph Neural Networks

DeepSeek-Prover

论文汇报3：Cost-effective fault diagnosis of nearby photovoltaic systems using graph neural networks

DeepSeek-Math