学术与学科

通知公告 更多…
弭元元课题组在NeurIPS 2023发表时序结构学习与表征的研究论文

2023-10-13

近日,清华大学心理学系弭元元课题组的题为“Learning and Processing the ordinal information of temporal sequences in recurrent neural circuits”的工作被NeurIPS 2023 接受。本研究共同第一作者为邹晓龙博士和重庆大学医学院初志坤(在读博士生),通讯作者为弭元元副教授。

背景介绍

时空信息序列处理是大脑认知功能的核心之一。时空信息序列(temporal sequence)是由一系列的事件(content,记为“内容”,)按照一定的“时序结构”(temporal order)在时间上依次展开,如动作、步态、语音等。例如,在语言加工中,“我们想听音乐”这句话便包含了三个不同的items(即主语、谓语和宾语),并且这三个词语按照先后顺序在时间上依次展开。更进一步,“我们想听音乐”中任意一个词的发音,如“们”,也是一个时空信息序列,由两个语素“m”和“en”组成;只有这两个最基本的语素按照正常的语序出现的时候,我们才能有效地识别出来。相比于纯空间信息加工,时空信息序列加工的技术难点在于:如何有效地提取输入信号在不同时刻的特征信息,并按照其发生的时间顺序结构将它们整合起来,以便做出正确的判断。到目前为止,人工智能算法在时空信息序列的识别表现还远落后于人类。

大脑在时时处理这样的时空信息序列,如语音识别、动作判断等。大量实验研究表明,“时序结构”和“内容”在大脑中的表征是解离的(Xie et al, Science, 2022)。例如,非人灵长类动物的神经电生理实验发现:背外侧前额叶和顶内皮层中很大比例的神经元对屏幕中视觉刺激的“时序结构”非常敏感,但对视觉刺激的颜色或朝向等其他物理属性(即内容)不敏感。同时,在听觉和语言序列处理中也观察到了类似的对时序结构的表征。但是,大脑采用“时序结构和内容解离表征”背后的神经计算机制不清楚。另一方面,多个相关序列背后所隐藏的order structure呈现出树状结构(图1)。例如,四个关键词“water, water, your, year”的语序结构就形成了两层的树状结构。具体为:从根部开始,单词“water”和“wash”在第一层形成一个分支,因为它们共享相同的第一个音节,而单词“your ”和“year”组成另一个分支。第二层,wash和water,会再次分岔,形成新的分支;your和year也会再次分岔。现有实验研究提示,这种树状的时序结构可以存储在前额叶皮层的低维神经活动空间中(Zhou et al, Nature, 2021)。但是,我们大脑局域神经环路如何习得这种抽象的树状时序结构呢?

更重要的是,大脑可以从已有的多个时空信息序列样本中提取出“树状结构”作为模板(一般称为event schemas),并可灵活、稳定地将这一模板与不同的“内容”组合起来形成新的时空信息序列,进而有效地促进迁移学习、等能力。

图1:四个关键词“water, water, your, year”所形成的树状时序结构。

提出可习得“树状时序结构”的学习范式

为了研究我们大脑局域神经环路如何习得时空信息序列背后的树状时序结构,以及探索该时序结构的计算优势,我们采用了互馈神经网络模型(图2A),并提出了新的互馈神经网络模型的学习范式(图2B)。

图2:(A)互馈神经网络模型包括三部分:1)输入层,传递时空序列的信息;2)互馈网络层,可存储多个时空信息序列中抽象的时序结构模板;3)输出层,表达网络对输入信息的分类结果。(B)学习范式。我们提出的新的学习范式主要考虑了两个重要的因素:根据“内容”的异同对输入信息序列的预处理策略(B右上图)和“由粗到细”识别过程的层级目标函数(B右下图)。

我们先以与图1中具有相同树状结构的人工合成数据为例(图3A)探索学习范式的有效性。具体为:首先,构建三个不同的items (a,b,c),任意一个item有三个输入通道(图2B左)。其次,随机选择其中两个item构成一个序列,四个序列分别为a-b,a-c,b-a,b-c。四个序列信息背后隐含了一个与图1相同的树状时序结构(图3A)。根据图2B中的学习范式,采用监督学习算法对网络进行训练。我们发现:1)训练后的互馈神经网络在其活动空间中形成了多个稳定的吸引子状态(图3B左中的‘x’号)来表征时空信息序列中不同的“内容”;2)任意序列中相邻两个“内容”之间迁移的通道也是稳定的(图3B右);3)四个序列在网络活动状态空间中演化的轨迹呈现树状结构(图3B中不同颜色的轨迹)。因此,我们提出的学习范式可以使得局域神经环路习得与实验结果相吻合的“树状时序结构”的神经表征。

图3(A)人工合成数据背后所隐含的树状时序结构。(B)(左)互馈网络层所习得的树状吸引子结构,(右)表征不同内容的任意两个吸引子之间的通道也是稳定的。如在a-b和a-c两个序列中,网络活动空间中表征内容a的吸引子的前两个特征方向分别指向表征内容b和c的两个吸引子,且其特征值小于1(特征值小于1则表明该特征方向是稳定的)。

大脑局域神经环路中“树状时序结构和内容的解离表征”有何计算优势?我们分别探索了这一脑信息加工机制在迁移学习、关键词语音识别过程中所拥有的计算优势。

“树状时序结构”的神经表征有效促进“迁移学习”

我们把图3中所习得的“树状时序结构”作为模板,将其与新的“内容”(如,不同语素的时空特征)结合,进而形成新的时空序列集合(图4A左),进一步探索树状序列模板在迁移学习中的计算优势。在该迁移学习任务中,为了有效复用图3中网络活动空间中的树状时序结构作为模板,我们固定互馈网络中神经元之间的连接结构,只训练输入信号与互馈网络间的连接。研究发现:1)新的时序序列集合的确复用了图3互馈网络所习得树状时序结构(图4A右);2)对树状时序结构的复用,有效加速了网络的迁移学习能力(图4B)。

图4:树状吸引子时序结构作为模板有效促进迁移学习

“树状时序结构”的神经表征有效提升“关键词”语音识别的鲁棒性

大脑可以鲁棒地识别拉伸或者压缩的“关键词”语音信息,但这在机器学习中却尤为挑战。我们提出“树状时序结构和内容的解离表征”可为此提供一种有效的解决方案。这是因为任意一个作为时空信息序列的关键词而言,每个语素(‘内容’)都是按照一定的序列组合而成。我们研究发现,神经网络可通过其在学习过程中所习得关键词中语素内容背后的时序结构,由此便可鲁棒性地识别出拉伸或者压缩的关键词语音序列,并显著优于控制模型,如图5所示。

图5:树状吸引子结构利于提升关键词语音是被的鲁棒性。

联系我们

电话:010-62773687

邮箱:psych@tsinghua.edu.cn

地址:北京市海淀区清华园1号

邮编:100084

Copyright© 2002 - 2020 清华大学社会科学学院