摘译：认知体系研究综述（二）

2020-03-28 11:44

4．1视觉（vision）

长期以来，视觉是主要的感知模态，虽然最近的研究建议更平衡的感知体验观［17］，但认知结构的研究仍然以视觉为中心，相对也是研究最多的感知模态。尽管在机器人技术中，各种非视觉传感器（如声纳、超声波距离传感器）和本体感觉传感器（如陀螺仪、圆规）被用于解决诸如导航、避障和搜索等视觉任务，但视觉输入占所有可能输入模式的一半以上。根据Marr［18］的说法，视觉处理通常包括了三个不同的阶段：早期、中期和晚期。早期视觉技术是数据驱动的，涉及到对视觉场景的并行处理，提取简单的元素，如颜色、亮度、形状、运动等。中期视觉技术将元素分组到区域中，然后在后期进行进一步处理，以识别对象，并使用可用的知识赋予它们意义。尽管Marr没有提到，但视觉注意机制、情感和奖励也会影响视觉处理的各个阶段［19］。因此，感知和认知在各个处理阶段都是紧密关联的。

在认知体系中，基于图像理解的视觉处理是分阶段进行的【20】。这些阶段包括：1）强度－位置－时间值的检测和分组（产生边缘、区域、流向量）；2）边缘、区域等的进一步分组（产生表面、体积，边界、深度信息；3）对象识别及其运动识别；4）为实体建立以对象为中心的表示；5）基于任务为对象分配标签；6）时空推断实体之间的关系。在这里，只有阶段1代表Marr三阶段理论的早期阶段，所有后续阶段都需要一个附加的任务或世界知识。已经在第2阶段，特征的分组可以由被观察的特定对象的视点信息和知识来促进。最后，后期阶段对从早期和中间处理结果中抽象出来的高级表示进行推理和操作。

值得注意的是，在许多图像理解的研究中通过执行了隐式深度学习方法而实现的。在最近几年中，我们已经看到了深度学习在图像处理和自然语言处理很多卓越表现，然而令人惊讶的是很少认知架构使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度学习在简单视觉任务中的一些应用。

图5显示真实视觉和模拟视觉执行处理的各个阶段。真实视觉系统只接收像素级的输入，而没有附加信息（如摄像机参数、物体的位置和特征等）。图像本身由相机生成，但体系结构不需要连接到物理相机。模拟视觉系统通常忽略早期和中期处理阶段，并以适合视觉处理后期阶段的形式接收输入（例如形状和颜色的符号描述、对象标签、坐标等）。技术上，任何不支持真实视觉或其他感知模式的体系结构，都可以通过接口进行扩展，该接口将其连接到传感器或将原始数据预处理为更合适的格式（如Soar、ACT－R）。但图5仅仅显示执行了什么样图像解释阶段，而没有反映出这样处理的复杂性。

图5：这些阶段从早期到后期依次为：1）特征，2）原型对象，3）对象，4）对象模型，5）对象标签，6）空间关系

不同深浅的蓝色用来表示属于早期、中期和晚期视觉的过程。这个具有真实和模拟视觉的架构分别显示在左栏和右栏中。每列中的顺序按字母顺序排列。

4．2基于传感器的视觉（Vision using physical sensors）

大多数体系处理视觉各个阶段都是物理嵌入的，包括机器人控制、生物启发和仿生结构。早期视觉（步骤1）通常涉及边缘检测和视差估计。然后这些特征分组（步骤2）为具有类似特征（颜色、深度等）的东西，这些东西被解析为具有质心坐标的候选对象（步骤3）。使用离线方式学习对象模型（步骤4），并可用于对候选对象进行分类（步骤5）。

基于生物启发的体系也使用计算机视觉算法，并遵循类似的处理阶段。例如，用于目标检测的神经网络（RCS、DIARC、Kismet），用于对象识别的SIFT特征（DIARC），用于手部检测和跟踪的SURF特征、AdaBoost学习和高斯混合（iCub），用于识别人体并确定年龄性别的Kinect和结合支持向量机的LBP特征（RoboCog和CORTEX）。

在有些体系结构中，视觉与记忆、控制系统的联系更加紧密，视觉处理中的一些步骤与人类视觉系统有明显的相关性。其中一个例子是显著性【saliency？】，它根据视觉刺激的特征或与任务的相关性，对视觉刺激的优先级进行建模。因此，显著性被用来寻找场景中感兴趣的区域（Kismet、ARCADIA、DIARC、iCub、STAR）。自我球，一种在一些机器人结构中发现的结构，模拟了海马体在感觉信息和动作整合中的功能，尽管在生物学上不是合理的。本质上，自我球在机器人周围形成一个虚拟穹顶，突出的物体和事件被映射到上面。这个概念的各种实现包括在RCS、ISAC、iCub和MACSi中。

图2体系中的第三个亚组追求生物学上合理的视觉。其中一个最详细的例子是基于大脑腹侧通路解剖的Leabra视觉系统（LVis）。它模拟了初级视觉皮层（V1）、纹状体外区（V2、V4）和下颞叶皮层（IT）。这些区域中的计算大致对应于早期和中期处理步骤。LVis具有人类视觉系统的其他特征，例如在更高层次上的神经元的更大的感受野、层之间的相互联系以及限制跨层活动水平的反复抑制动力学。Darwin VIII（BBD）、SPA（Spaun）和ART的视觉系统也模仿了灵长类动物的腹侧视觉通路。

SASE架构并没有紧密地复制人类的视觉系统。相反，它使用具有局部连接的层次神经网络，每个神经元从前一层的限制区域获得输入。一层内的感受野大小相同，并且在较高的水平上增加。该系统在一个室内导航场景中的帆式机器人上进行了测试。MDB、BECCA和DAC中实现了类似的视觉方法。值得指出的是，尽管涌现范式没有显式地将标签分配给对象，但是它们能够形成场景中对象之间空间关系的某种隐式表示（比如向量表示），并将这些表示用于视觉导航等任务（BBD、BECCA、DAC、MDB、SASE）

4．3模拟视觉（Simulated vision）

从图2可以明显看出，大多数模拟只支持视觉处理的后期阶段。最简单的模拟是由物体填充的二维网格，例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二维迷宫和CLARION social agents设计的部落模拟。网格环境中的代理通常只能看到有限的周围环境，每个方向只能看到几个单元格。Blocks world是另一个经典领域，其一般任务是构建各种形状和颜色的块堆栈（ACT－R、ICARUS、MIDCA。

尽管它们的复杂性和目的不同，不同的模拟通常提供关于环境的相同类型的数据：对象、它们的属性（颜色、形状、标签等）、代理本身的位置和属性、对象和环境因素之间的空间关系（例如天气和风向）。这种模拟主要用作可视化工具，与直接输入的数据相差不大，因为几乎不需要任何感官处理。更高级的模拟将场景表示为具有角点颜色和三维坐标的多边形，这些角点必须进一步处理以识别对象（Novamente）。否则，3D模拟的视觉真实性主要是为了美学和感官，因为信息是直接以符号形式提供的（例如CoJACK，Pogamut）。

如前所述，图2并不反映个体体系的环境或能力的复杂性差异。然而，在体现认知结构的环境之间的大小和真实性。例如，ATLANTIS控制的行星漫游者在户外岩石地形中进行越野导航。销售机器人Gualzru（CORTEX）在一个满是人的大房间里移动，iCub（MACsi）从桌子上识别并捡起各种玩具。另一方面，简单即没有障碍的环境也被用于认知结构研究（BECCA，MDB）。此外，颜色编码对象是简化视觉处理的常用方法。例如，ADAPT跟踪一个红色在桌子上滚动的球和DAC将自己朝向标记有不同颜色的目标。此外，大多体系的应用只能识别少数不同的对象类别。只有Leabra能够区分几十个对象类别。随着OpenCV、Cloud Point Library或Kinect API等可用软件工具包的普及，可视化处理的质量大大提高。但在试图建立通用的生物学意义上的视觉系统模型，并没有取得太多进展。目前，应用仅限于受控环境。

4．4听觉（Audition）

听觉是认知体系中一种常见的模态，因为语音命令常常是用于指导智能系统或与之通信。由于听觉模态是纯功能性的，许多体系结构使用可用的语音到文本软件而不是开发听觉模型。为数不多的进行了听觉感知建模的体系包括了ACT－R、SPA和EPIC。例如，ARTWORD和ARTSTREAM被用来研究音位整合和音源隔离（鸡尾酒会问题）。基于ACT－R发展了一个音乐解释模型。

使用专用软件进行语音处理和通信有助于实现复杂性和现实主义。例如，在机器人应用中，它允许销售机器人编写脚本在拥挤的房间里与人互动（CORTEX）或对话英语的子集（CoSy）。一个更高级的应用包括使用语音识别来完成这个任务通过电话向公共图书馆订购书籍（FORR）。使用现成语音的其他系统处理软件包括PolyScheme和ISAC。在选择的体系中，大部分工作都是针对自然语言处理，即语言和语音所承载的语义信息，很少有人注意到据情感内容（如响度、语速和语调）。在这个方向上的一些尝试都是社会机器人。例如，社交机器人Kismet不明白人们在说什么，但它可以根据演讲的韵律轮廓来确定赞同、禁止或安慰。这个Ymir体系结构还具有韵律分析器和基于语法的语音识别器，可以理解100个单词的有限词汇。甚至声音本身也可以作为线索，例如，BBD机器人可以将自己定向到一个响亮的声音源。

4．5符号输入（Symbolic input）

符号输入结合了几种不同于物理传感和仿真模拟的输入，包括了文本命令、数据以及通过GUI的输入。文本是用于执行规划和逻辑推理任务的典型输入形式（例如：NARS ， OSCAR ， MAX ， Homer ）。文本命令通常是根据体系结构中使用的基元谓词编写的，因此不需要额外的解析。

4．6 多模态感知

在前面各节中，单独考虑了各种的感知模式。然而，在现实中人脑从不同的感官接收到源源不断的信息流，并将其整合成一个关联的世界表征。认知结构也是如此，因为近一半的认知结构有两种及以上不同的感知模式（图1）。并非所有这些模式可能出现在一个单一的体系中，大多数体系同时使用两种不同的模式，例如视觉和听觉、视觉和符号输入或视觉和距离传感器。除了少数例外，这些体系结构基本上执行了认知科学中的特征集成或机器人学中的传感器数据融合。显然，可以使用不同的传感器，而不必显式地组合它们的输出。

多感知通过互补和冗余提高感知的稳健性，但在实践中，使用许多不同的传感器会带来许多挑战，例如不完整或虚假或冲突的数据、具有不同属性的数据（例如维度或值范围）、对数据对齐和关联的需要等。机器人研究领域对这些实际问题进行了深入的研究，但是还没有提出通用的解决方案。每个解决方案都必须为特定的应用程序定制，这是大多数认知架构采用的一种普遍做法。不幸的是，文献中很少有技术信息来确定所使用的确切技术，并将它们与已建立的分类法联系起来。

总的来说，传感器集成的特定实现依赖于用于推理和任务的知识表示。在典型的具有符号推理的体系结构中，来自不同传感器的数据被独立地处理，并映射到以代理为中心的3D地图上，该地图可用于导航（CaRACAS ， CoSy）。在社会机器人的应用中，世界的表现形式可以是一个围绕着主体的自我球体，它包含以自我为中心的坐标和视觉检测对象的属性，这些都与通过三角测量确定的声音位置相关联（ISAC，MACsi）。

RCS，一个具有层次结构的模型，在每个层次上都有一个具有相应世界表示的感知处理模块（例如：像素图、3D模型、状态表等）。有些体系隐式地执行数据关联和对齐，即传感器数据和特征提取（例如，来自摄像机的物体坐标和来自激光的障碍物距离）是独立进行的。然后将提取的信息直接添加到工作内存。任何模棱两可和不一致都可以通过高阶推理过程来解决。这是分布式体系结构中的一种常见方法，其中独立模块同时为实现一个共同目标而工作（例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA）。

在许多受生物启发的体系中，不同传感器的读数之间的关联被学习。例如，DAC使用Hebbian学习来建立数据对齐，以便将不同感知模式的神经表示映射到一个共同的框架，模拟大脑上丘的功能。ART通过神经融合（ARTMAP网络）将视觉和超声波感官信息集成到移动机器人导航中。同样，MDB使用神经网络从传感器输入学习世界模型，并使用遗传算法调整网络参数。

目前为止提到的所有方法都有一些相似的传感集成，因为都使用空间和时间的接近或学习来消除多模态数据的歧义。但总的来说，只有很少的体系在感知层面上追求生物逼真度。唯一的一个在生物学上看似合理的感知集成模型是用基于大脑的设备（BBD）体系，被称为Darwin XI的具体神经模型是用来研究多感觉信息（来自触摸传感器、激光、相机和磁罗盘）的整合和在迷宫导航中的海马体［163］。Darwin XI的神经网络由大约80000个神经元和120万个突触组成，并模拟50个神经区域。在损伤研究中，通过去除一个或多个感觉输入并重新映射感觉神经元单元，证明了系统的鲁棒性。

一般来说，很多认知体系在很大程度上忽略了跨模态交互作用。这些体系，包括面向生物和面向认知的，在处理不同的感知模式时通常采用模块化的方法。同时，在过去几十年中进行的许多心理和神经成像实验表明，不同的感知相互影响。例如，视觉改变听觉处理，反之亦然。然而，据我们所知，一些仿生体系，如上文提到的BBD，可能代表跨模态效应，这个问题还有待调研。

未完待续
6 行动选择（Action selection）7 存储（Memory）8 学习（Learning）9 推理（Reasoning）10 元认知（Meta－cognition）11 应用及讨论
参考文献：

【12】Ron Sun and Lawrence A． Bookman， editors． Computational architectures integrating neural and symbolic processes： A perspective on the state of the art． Springer Science ＆ Business Media， 1994．

【13】Troy D． Kelley． Symbolic and Sub－Symbolic Representations in Computational Models of Human Cognition： What Can be Learned from Biology？ Theory ＆ Psychology， 13（6）：847–860， 2003．

【14】David Vernon， Giorgio Metta， and Giulio Sandini． A Survey of Artificial Cognitive Systems： Implictions for the Autonomous Development of Mental Capbilities in Computational Agents． IEEE Transactions on Evolutionary Computation， pages 1–30， 2007．

【15】Ben Goertzel， Ruiting Lian， Itamar Arel， Hugo de Garis， and Shuo Chen． A world survey of artificial brain projects， Part II： Biologically inspired cognitive architectures． Neurocomputing， 74（1－3）：30–49， 2010．

【16】Amal Asselman， Souhaib Aammou， and Az－Eddine Nasseh． Comparative Study of Cognitive Architectures． International Research Journal of Computer Science， 2（9）：8–13， 2015．

【17】Dustin Stokes and Stephen Biggs． The dominance of the visual． In D． Stokes， M． Matthen， and S． Biggs， editors， Perception and its Modalities， pages 1–35． Oxford University Press， 2014．

【18】D． Marr． Vision： A Computational Investigation Into the Human Representation and Processing of Visual Information． MIT Press， 2010．

【19】548． John K． Tsotsos． A computational perspective on visual attention． MIT Press， 2011．

【20】John K． Tsotsos． Image Understanding． In Encyclopedia of Artificial Intelligence， pages 641–663． 1992。

<上一页 1 2