多模态LLM幻觉问题降低30%业半岛·BOB官方网站内首个“啄木鸟”免重训方法诞生|中科大
2024-08-21 16:58:09
半岛·体育官网一个免重训、即插即用的通用架构,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。
就像这位所谓的“森林医生”先找出树木的虫洞再吃掉里面的虫子一样,本文中所提出的“啄木鸟”也是多模态大模型们的“幻觉”医生,能够将问题先诊断出来再一一纠正。
比如说,一些多模态大模型(MLLM)在回答问题时总是倾向于肯定答案(eg. 面对一个光头人物图,问它头发是什么颜色半岛·BOB官方网站,张口就说“黑”),那么我们再喂给模型一些包含负样本的数据,就能解决它“无中生有”的幻觉,遇到没有的就说“no”。
本文提出的“啄木鸟”框架,是业内第一个无需此操作就能解决“幻觉”的全新办法。
它一共分为5个步骤,每一步都采用了清晰透明的设计方式,因此具备良好的可解释性。
例如对于下图,多模态大模型最开始可能描述图中有一辆自行车停在一个垃圾桶旁边,还说图上有几个人从垃圾桶旁边走过。
可主要分为对象层面和属性层面半岛·BOB官方网站,前者可以问“图中有几辆自行车?”,后者可问“垃圾桶位于什么位置?”。
在此,由于属性问题比较依赖于上下文,作者也用了一些带有上下文的例子来提示模型,以便提出的问题更有意义
对于对象层面的问题,例如我们利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。
对于属性问题,则用BLIP-2来搞定。这类传统VQA模型输出答案的长度有限,幻觉问题更少。
简单来说,就是基于于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。
具体实施环节中,“啄木鸟”采用GPT-3.5-turbo来完成关键概念提取、提问和最后一步的纠正。
由于一些多模态模型的指令跟随能力较弱,导致结果可能输出无关文本(例如表情、特殊符号),再加上有时一些模型只输出一个“是”或“否”,这让实际的校正过程也面临挑战。
(1)将模型回答的“是”或“否”与“啄木鸟”给出的答案组合起来,比如“是的,图像中有一只狗”,就不怕模型原本只是给出一个简单的“yes or no”逃过校正了。
(2)在校正过程中,将原始问题添加到LLM,以便LLM更好地掌握文本和任务要求。
在此,作者在POPE、MME和LLaVA-QA90数据集上进行了全面的定量和定性实验。
(w/Ours表示由“啄木鸟”校正的MLLM响应,x为未采用,对勾为采用)
可以看到,“啄木鸟”都能给这几个模型带来不同程度的提升,同时大幅降低模型回答“yes”的概率。
在更全面的MME数据集上,“啄木鸟”也有效减少了多模态大模型在对象级和属性级层面的“幻觉”,也就是某物是否存在、数量多少,以及它的位置和颜色。
不过半岛·BOB官方网站,位置方面的“幻觉”提升不是特别大,作者推测可能是VQA模型BLIP-2在位置推理方面的能力相对较弱等原因造成的。
不同于以往将图片转译后送入纯文本GPT-4的做法,作者利用OpenAI最近开放的视觉接口,提出使用GPT-4V对修正前后的图片描述直接对下列两个维度进行打分:
结果表明经过“啄木鸟“修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。
另一方面,“啄木鸟“修正后引入的定位信息丰富了文本描述半岛·BOB官方网站,提供了进一步的位置信息,从而提升了细节丰富度。
如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。
原标题:《多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台半岛·BOB官方网站。申请澎湃号请用电脑访问。