当前位置: 咨询中心 >> 咨询中心市场 >> ICLR22Oral丨通院合作新研究
人类天生地利用多模态信息(视觉、听觉、触觉、嗅觉等)来感知和理解世界。其中,视觉和语言的多模态感知对人类而言尤为重要,且它们二者之间能起到互补和增强的作用。
比如当你在路上远远地看到一位朋友和你打招呼,他嘴里同时在说着什么,虽然你听不清楚,但也能从对方的笑脸和友好的招手姿势,大致推断出他说的是一句问候语(“嗨,Hello,好久不见……”),这就说明视觉信号可以很好地辅助语言理解。语言信号同样有助于视觉理解,比如糖和盐的外观非常相似,为了在做饭的时候快速在视觉上区分出它们,语言标签是个好帮手。
过往人们对于人工智能的技术研究大多集中于单模态领域,并在特定任务上取得了不错的性能,比如图像识别和语音识别。然而现实世界中的很多问题往往都是涉及多模态的,这就要求智能体具备和人类一样处理视觉和语言等多模态信息的能力。例如,自动驾驶汽车应该做到能够识别出交通信号和道路状况(视觉)、处理人类发出的命令(语言)。因此,多模态研究成为了近些年AI领域的研究重点,尤其是视觉-语言联合模态。
然而,当前研究人员所构建的大多数视觉-语言模型都只是在两个独立的信息流中分别处理视觉和语言信号,并仅在最后阶段把两种信号的结果进行融合,而实际上,人类对多模态信息的处理能力要机器高明很多。
例如,年的一项研究[1]表明,在只看得到口型而听不到声音的条件下进行唇读时,人类大脑的听觉区域可以通过接收来自视觉皮层的信号,帮助人类更好地理解唇读。还有一些行为调查、神经成像和神经解剖学等研究结果表明,在感知多模态信号时,人类的大脑中存在一个神秘的“共享世界”,充当着理解融合信息的中央处理器的角色。
在本文要介绍的这项工作中,研究人员受到人类大脑“共享世界”的启发,深入地研究了视觉-语言表示的“共享世界”,并提出了一个新的挑战——用无监督的视觉-语言语法归纳来同时提取视觉和语言的共享层次结构。本研究提出了一种名为CLIORA的新模型,该模型基于两种模态的结构化输出,在很多任务上都取得了很好的效果,并朝着对多模态信息的语义理解迈出了明确一步。
目前这篇工作的研究论文已被人工智能顶级学术会议ICLR录取为Oral,论文一作是鲁汶大学在读博士生万博,通讯作者是北京通用人工智能研究院前沿研究中心研究员韩文娟。