他们提出了一个大胆的猜想：GWT（深度学习）→通用人工智能[通俗易懂]

来源：AI科技评论

编译：陈彩娴

近日，有一篇发表在arXiv的论文“Deep Learning and the Global Workspace Theory”提出了一个大胆的猜想（或理论）。

两位作者认为，当下的深度学习已经可以基于一个意识模型，即“全局工作空间理论”（GWT），将处理不同模态转换的神经网络即功能模块，结合为一个系统，从而迈向实现通用人工智能的下一个阶段。总结成公式就是：GWT（深度学习）→通用人工智能。

论文链接：https://arxiv.org/pdf/2012.10390.pdf

然而，深度学习的那些被人广泛诟病的问题，如脆弱性、不可解释性等等，可以通过这个框架来解决吗？现在学术界一直提倡的结合知识、结合图网络、结合因果关系等观点，他们又怎么看待呢？

作者在论文中也部分地给出了自己的答案。他们认为，该系统可以提高神经网络的对抗鲁棒性，实现Bengio提出的系统2认知，以及对于理解因果关系很重要的反事实推理等等。

这个理论是否可行，尚不可知，但其描绘的图景值得一看。

论文摘要

随着深度学习的不断发展，人工智能在许多感知、理解、语言与认知任务中已接近人类。然而，我们对开发基于大脑的认知架构的需求也在不断增长。

全局工作空间理论（Global Workspace Theory）指的是一个将专业模块网络中的信息整合和分发，以创建更高级的认知和意识形式的大规模系统。

作者认为，现在正是使用深度学习技术实现全局工作空间理论的时机。因此，他们基于多个隐空间（Latent Space：针对不同任务，在不同的感知输入和/或模态上训练的神经网络）之间的无监督神经翻译提出了一个路线图，以创建一个独特的非模态全局隐工作空间（Amodal Global Latent Workspace）。

大脑与机器中的认知神经架构

在机器学习的体系中，深度学习的特征是使用在输入与输出层之间具有多个“隐藏”层的人工神经网络。人工智能的许多最新突破，都要归功于深度学习。神经科学家也指出了大脑与深度人工神经网络之间的相似性与差异性。

深度学习的出现，使计算机能够有效执行此前无法实现的感知与认知功能。在这篇论文中，作者等人希望将深度学习扩展至全局工作空间理论（GWT）。GWT是感知、执行功能甚至意识的基础。

GWT是一种意识模型，最初由美国心理学家Bernard J. Baars等人提出，是当代主要的神经科学意识理论之一（图1A）。

该理论提议将大脑分为执行不同功能的专用模块，模块与模块之间具有长距离连接。通过注意选择的过程确定输入或任务要求后，专用模块内的信息可以在不同模块之间传播与共享。根据该理论，每一时刻的及时共享信息（即全局工作空间）构成了我们的意识知觉。从功能的角度来看，全局工作空间可以通过协调多个专用模块来解决单个模块的功能所无法解决的问题。

图 1：大脑中的全局工作空间

如上图所示，图1A是GWT的示意图。同心圆描绘了外围（如感知输入）与更多的中间过程，全局工作空间位于中心。每个专用模块都是独立处理信息。通过自下而上（基于重要性）或自上而下（与任务相关）的注意力来选择输出时，输出可以进入全局工作空间。

在全局工作空间中，信息处理的特点是长距离的互连性强，因此可以将新的信息传播到其他模块。在任何给定时间内，专用模块的子集都会依赖数据与任务被调到工作空间中。全局工作空间的内容反映了我们不断变化的意识。

图1B是GWT映射到（猴子）大脑。图左，视觉信息可以通过视觉系统传播，并激活以前馈方式控制行为输出的额叶区域——在这种情况下，信息是无意识的。图右，当输入足够强大或与任务相关时，输入将激活循环连接，导致全局工作空间“点火”（ignition，一个高度非线性、非零的过程）。

图C是受Dehaene和Changeux启发的全局神经元工作空间（GNW）实现，包含了具有前馈和循环连接的处理层的分层结构（LGN：外侧膝状体；V1 / V4：视觉区域；Par：顶皮质区；Front：额叶皮层）。

图D所示的简单循环网络是全局工作空间的全或无“点火”的原因所在：与漏掉的或未检测到的输入（分别是Correct Rejection与Miss）相比，大脑有意识感知到的输入（Hits）的主要特征是额叶区域的全或无激活（或“点火”）。

Dehaene等人提出了该理论的神经元版本，即全局神经元工作空间（Global Neuronal Workspace ）。根据GNW理论，当新的信息通过在前额叶、额颞叶和扣带状皮层中密集分布着远距离轴突的神经元网络到达全局多个大脑系统时，意识通达就会产生（图1B）。GNW关键方面的尖峰神经网络实现，捕获了全局工作空间理论的本质（图1C）以及意识报告与神经元反应之间的已知关系（图1D）。但这种方法是否能够以足够的灵活性扩展来解决人工智能中的问题，仍未可知。

在这篇论文中，作者提出使用深度学习的知识来实现全局工作空间理论。Yoshua Bengio将他最近的“意识先验”理论与GWT明确地联系起来，但他的观点主要强调机器学习的一些新颖理论原理（例如稀疏因子图）。作者在这里提出了一种互补的方法，其中强调使用当前可用的深度学习组件来实现全局工作区的实用解决方案，同时也关注大脑中的等效机制。

深度学习GLW的路线图

在下文中，作者们尝试一步步定义AI系统中实现全局工作空间的必要和充分组件。这些步骤构成了一个路线图，研究人员可以按照该路线图来实现这个目标。

需要强调的是，下面所描述的所有组件都是单独存在，有些甚至在各自的功能上达到或超过人类水平。某些细节可能存在漏洞；此外，也可能有多种方法来实现全局工作空间。总体而言，作者认为下文的策略最有可能成功。

3.1 多个专用模块

GWT的第一个组成部分是N个（N≥2）独立的专用模块（具体参考论文中的Glossary），每个模块都有自己的高级隐空间（隐空间的定义和示例，请参见图2）。这些模块可以是经过预训练的、专门用于感知（视觉分类，听觉分类，或目标分割）的神经网络，可以是自然语言处理模块，可以是长期记忆存储模块，可以是强化学习智能体，也可以是运动控制系统等等。当然，选择这些专用模块非常关键，因为这决定了整个全局工作空间系统的功能，以及全局工作空间可能执行的任务范围。但这不会影响下面列出的其他原则。

图 2：深度学习隐空间的示例，指一个能够捕获输入域或任务的相关结构和拓扑的低维空间，通常指判别模型的最后一个特征层与生成模型的第一层。

深度学习隐空间的示例（投影到2D以进行可视化）包括：

A. MNIST数据集的隐空间。数据集中的每个图像都是左侧空间中的一个点，根据数字类别进行着色。定期在2D矩阵中对隐空间进行采样会促进右侧的图像重建（使用UMAP逆变换方法创建）。

B. 词嵌入空间（Word2Vec算法）。隐空间的不同部分专注于不同的语义域（例如插图中的“sea”）。

C. ImageNet自然场景数据集（从BigGAN生成模型得出）的隐空间。每行沿着256维隐空间中的单个矢量采样不同的点。

D. VAE-GAN模型的人脸隐空间。针对每一列，从隐空间中采样一个点，然后向其中添加数量不等的预先计算的“微笑”或“男性”向量。必须强调的是，潜在表示（latent representations）本质上是神经激活的向量，可以使用代数运算（如panel D所示）进行内插（如panel A与C）、外推或更广泛的操作。

从理论上讲，将N个前馈判别模型连接在一起（每个网络都经过训练，可以根据类别对来自特定领域的输入进行分类）便足以构建一个多模态工作空间（比如，当一个人听到“老虎”这个单词时，会预激活“老虎”的视觉识别单元）。

但实际上，加入生成模型的好处有很多：网络能够生成运动或语言输出，还会生成具有自上而下的生成路径的传感系统，例如（可变的）自动编码器、GAN与预测编码网络。

如果全局工作空间的目标是影响系统的行为输出，那么包含生成网络是非常必要的。此外，包含生成网络对系统能够具备创造力或“想象力”（比如生成心理图像），对通过迭代构想一个可能的未来状态或反事实状态来进行思维模拟，意义都非常重大。最后，当一个输入达到意识，且相应的模块被移动到有意识的全局工作空间中时，一个循环的、自上而下的途径可能是解释从大脑中观察到的“点火”特性的关键（图1B与D）。

3.2 全局隐工作空间（Global Latent Workspace，GLW）

GLW是一个独立的中间共享隐空间，在本质上是非模态的，经过训练后可以在专用模块的N个隐空间之间执行无监督的神经翻译（图3，本文的关键图）。

尽管在深度学习中有许多监督多模态翻译的例子，但在本文中，作者强调循环一致性是神经翻译的主要无监督训练目标。如此，GLW可能会在任何一对模块之间进行转录，即使模块之间没有匹配数据（例如，没有气味与特定的视频游戏状态进行系统关联），我们也可以直观地识别出玩家的状态何时变得不同。

当然，如果默认的无监督神经翻译策略也可以在有关联数据可用时（例如，在观看动物的同时听到相应的声音）补充有监督的目标，自然是最好的。按预期，这个中间空间的维数应该与每个输入隐空间的维数相等或更高，但远低于所有输入隐空间的总和。这个“瓶颈”现象可以确保仅对相关信息在某个时间点进行编码，并迫使系统优先处理带有注意力的竞争性输入。

图3：深度学习“全局隐工作空间”的示意图

如图3所示，深度学习“全局隐工作空间”的专用模块分布在外围，可以是针对各种任务的预训练网络：感知（物体识别，检测，分割，语音识别…），运动（机器人手臂控制，语音生成…），语言（文本理解，机器翻译，文本-语音转换…），记忆存储，或更高级别的与认知和行为相关的功能（直观物理引擎，RL策略，任务嵌入…）。每个模块都通过模块的相关隐空间的内部副本连接到GLW（如图所示，位于中心）。

通过使用循环一致性目标进行深入训练，这个工作空间学会了以几乎无人监督的方式在任意两个模块的隐空间表示之间进行转换，不需要或仅需要少数配对数据（红色箭头）。当自下而上或自上而下的注意力从一个模块中选择输入时，其隐空间激活被复制到GLW中，并立即被转换为适用于其他各个模块的表示形式。

但是，这些模块中只有少数模块（当前已移至工作空间中的模块）将有效地接收和处理相应的数据。例如，在视觉场景中识别出老虎后，“老虎”的NLP单词嵌入和与逃跑相关的行动计划会出现在工作空间中；但是，如果此时在工作空间中采取了特定的相应模块（文本到语音，运动输出），那么“老虎”一词就只是发音，或启动逃跑。

3.3 注意力

在大脑中，注意力决定了哪些信息能被有意识地感知，以及哪些信息会被丢弃（尽管注意力和意识可以分离）。同样，在原始GWT中，由注意力选择进入工作空间的信息。

在深度学习中，注意力在近期已经引起人们的关注，尤其是在NLP和CV中广泛使用的transformer架构。在transformer和相关网络中，注意力是一个网络层发出的查询与另一网络层发出的查询之间的匹配（在自注意力机制下，网络可能是同一层）；匹配分数确定将哪些信息传递到下一阶段。

同样地，我们可以设想一个键-查询匹配过程，以选择到达GLW的输入。如果工作空间包含当前任务的潜在表示，则该信号可用于发送自上而下的注意查询：每当输入模块的隐空间产生一个匹配键时，相关信息就会被带入工作空间。

在没有明确任务的情况下，或者在有异常强烈或令人惊讶的输入的情况下，自下而上的注意可能会占上风：在上述术语中，显信息具有取代所有查询的“主键”。以数据依赖和任务依赖的方式生成键和查询的注意力机制必须通过使用特定目标函数的训练来优化。

3.4 内部副本

当选择一个特定模块的信息进入工作空间时，隐空间激活向量的副本也会被带入GLW。如果隐空间是概率性的（像在变分自动编码器中一样），就可以从概率分布中获取唯一的样本——这可以确保始终保持GLW的统一表示，与我们的主观经验和神经科学证据保持一致。

3.5 广播

被选上的信息很快得到广播，即（通过共享的隐空间）转换为其他模块的隐空间。这个转换过程是自动的：无需其他努力就能有意识地理解我们的内部和外部环境。这也是有意识的输入获取“含义”的方式，因为这些输入会突然与相应的语言、运动、视觉与听觉等表示形式连接。

这仅意味着，相关格式的相关信息对这些系统来说是“可用”的（作为工作空间内的内部副本），但不一定要使用（如有效地复制到相应的模块中）。人们不会总是形象化地联想到一张心智图像的细节，也不是总会说出他们的想法或心里话，也并非总是按照运动计划来行动，等等。

决定这些信息是否会被这些系统使用的，是它们本身目前是否已连接到工作空间（比如，由于它们的任务相关性）。许多在工作空间内广播有意识输入时自动形成的潜在表示不会为自身有意识地感知，但可能与Crick和Koch所描述的“意识半影”（penumbra of consciousness）相对应。

GLW的功能优势

本文介绍的GLW架构有一个主要的可测试特性，即整体应大于其各个部分（即各个模块）的总和。换句话说，GLW的附加功能属性也可以提高与其连接的所有模块的性能。除了这些已有的单个任务外，全局工作空间还提供了组合模块以执行全新任务的可能性。

首先，GLW中的自动多模态对齐表示是完成信息基础的理想途径。感知输入或运动输出不再是各自隐空间中的无意义矢量，而是与其他感知运动域中的相应表示与相关的语言表示产生了关联，这促成了感知运动数据的语义基础。

与语义信息的感知运动基础相反，仅捕获空心“语言标记”之间的长期统计关系的语言嵌入向量通过与感知环境或智能体的运动和行为方式的相关部分进行关联而得到转换。

因此，感知运动接地（grounding）的概念与Gibsonian可供性（affordance）的概念紧密相关，且与Gibson在脑科学中的生态学方法有更广泛的连接。最终，接地的潜在表示可以为与全局工作空间连接的每个模块提高性能，尤其是在提高分布外样本（包括所谓的“对抗”攻击）的鲁棒性方面。

虽然接地和可供性是信息进入全局工作空间的即时自动结果，但这种系统需要花费更多的时间和精力。事实上，以任务依赖的方式将任意模块组合短暂地移动到工作空间中的能力，正是通用认知架构所需要的。

如此，通过将一个模块的功能部署到另一个模块的潜在表示上，系统可以从专用模块中获得更多常规功能。这种迁移学习使智能体能够通过泛化先前已学习的模型来适应新的环境和任务，并成为实现智能的核心条件。因此，作者提出以共享隐空间作为意识平台，弥合了意识与通用智能之间的理论联系。

当有足够多样化的模块可用时，它们的可能组合实际上是无限的。取得这种灵活性需要付出大量的时间和精力：思维功能组合是一个缓慢而有序的过程，需要反复使用自上而下的注意力，以调用相关的模块，一次使用一个功能。这也是Kahneman和Bengio所说的系统2认知。

这种灵活的思维组成系统具有的一个主要功能是反事实推理，或回答“如果……会怎样”的能力。这种能力是高级认知中绝大标志性属性的核心：想象力和创造力，规划，思维模拟，关于未来的可能状态的迭代推理。在这种情况下，世界模型（即环境对人的行为做出反应的内部模型）在寻找新任务的解决方案上特别有用，因为它们提供了任务独立的相关信息，可以让智能体通过内部模拟进行离线学习。

可以说，这些假设的功能优势应转化为可检验的预测。每个模块潜在的、得到改善的性能和鲁棒性可以通过现有基准轻松验证。虽然高级认知功能可能需要新的测试平台，但迁移学习和任务组成基准已经存在。最终，这篇论文所罗列的优势，是捕获人类和动物的意识功能，以及迈向通用人工智能的途径。

术语解释：通过循环一致性进行无监督神经翻译

在自然语言处理中，神经翻译系统是一种使用神经网络的机器翻译算法。标准的（神经）机器翻译是通过源语言和目标语言的匹配示例（单词，句子）来学习。

但是，由于所有语言都表示外部世界的共同物理现实（所谓的语言基础属性），因此，从理论上讲，完全有可能无需借助匹配的语料库（图 I）就能在两种（或更多）语言中学习对齐语言表示形式，这也被称为“无监督神经翻译”。

最近人们提出了一种新方法，依赖于循环一致性的训练目标：从语言A到语言B进行连续翻译，然后从语言B翻译到语言A，如果能翻译回原来的句子，语言对齐就取得了成功。类似的方法已在不同领域之间的神经翻译上得到应用，例如不成对的图像到图像翻译，文本到图像翻译，或触觉到图像翻译。通过循环一致性训练进行的域对齐也是最近研究无监督域适应和迁移学习任务的研究核心。