多模态模型再进化，已学会看图玩扑克_算“12点”

导读：

近日知名媒体公布了年度好莱坞电影盈利排行榜超级马力欧兄弟大电影净盈利亿美元力压芭比获得年度冠军注的电影盈利排行榜是从投资月日消息在科技领域的决策能力一直是研究的热点最近伯克利等...

近日，知名媒体Deadline公布了2023年度好莱坞电影盈利排行榜！《超级马力欧兄弟大电影》净盈利5.59亿美元，力压《芭比》获得年度冠军！注：Deadline的电影盈利排行榜是从投资....

6月4日消息:在科技领域，的决策能力一直是研究的热点。最近，UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架，成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下，通过强化学习微调，已经学会了看图玩扑克、算“12点”等任务，并且其表现超越了GPT-4v。

研究团队由多位重量级人物组成，包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun，UC伯克利的Sergry Levine教授，以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布，并且相关代码已在GitHub上开源。

RL4VLM的核心是一种新的算法框架，它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是，奖励信息直接来源于环境，不再依赖于人类反馈。这不仅提高了效率，也赋予了多模态模型自主决策的能力。

为了全面评估RL4VLM的效果，研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力，包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。

具体到任务，研究团队设计了数轴（Numberline）、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中，ALFWorld是微软等于2020年提出的开源具身智能任务集，而其他任务则是研究团队的原创设计。

实验结果令人鼓舞。经过强化学习微调的多模态模型，在决策问题上的表现不仅超过了商用模型GPT-4v，同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中，RL4VLM模型取得了最高的平均分，尤其在单物体拾取任务上表现突出。

RL4VLM的工作流程是这样的:首先，系统将任务的当前状态以图片和文字描述的形式输入多模态大模型，并要求模型输出一段思维链，然后以文字形式输出要执行的动作。动作信息输入环境后，获得奖励值，该奖励值将用于强化学习训练。

为了适应RL训练框架，研究人员对模型的输入和输出进行了调整。具体来说，将任务图像和任务描述的文本合并后，直接作为当前任务的状态输入。在获得模型的文字输出后，将其转化为与环境交互的动作指令。

消融实验结果表明，使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路，也为未来人工智能的发展开辟了新的可能性。

论文地址:https://arxiv.org/abs/2405.10292

项目地址: