帮助人工智能掌握物理的基本定律可以使它们更复杂

来源：互联网时间：2020-02-04 17:00:39

人类对物理定律有较早的了解。例如，婴儿对物体应该如何移动以及如何相互影响抱有期望，当他们做一些意想不到的事情时会表现出惊讶，例如在惯用的魔术中消失。

现在，麻省理工学院的研究人员设计了一个模型，该模型展示了对有关物体应如何行为的一些基本“直观物理学”的理解。该模型可用于帮助构建更智能的人工智能，并反过来提供信息以帮助科学家理解婴儿的认知。

这个名为ADEPT的模型观察物体在场景中的运动，并根据其基本物理原理做出预测。在跟踪对象时，模型会在每个视频帧上输出与“惊奇”水平相关的信号-信号越大，惊喜就越大。如果某个对象与模型的预测严重不匹配(例如，通过消失或在整个场景中传送)，则其惊奇程度将达到峰值。

为了回应视频显示物体以物理上合理和难以置信的方式运动，模型记录了令人惊讶的水平，该水平与观看相同视频的人类报告的水平相匹配。

“到了3个月大的时候，婴儿们就有了一些观念，即物体不会眨眼而过，不会互相移动或传送，”第一作者凯文·史密斯(Kevin A. Smith)说。脑与认知科学系(BCS)和脑，脑与机器中心(CBMM)的成员。“我们想捕获并正式化这些知识，以将婴儿的认知建立为人工智能代理。现在，我们正以接近模型的方式来区分基本的难以置信或合理的场景。”

论文的第一作者，电机工程与计算机科学系的本科毕业生Mei Lingjie和BCS研究科学家Yao Shuyu共同加入了Smith。Wu Jiajun Wu博士'19;CBMM调查员Elizabeth Spelke;Joshua B. Tenenbaum，计算认知科学教授，CBMM，BCS和计算机科学与人工智能实验室(CSAIL)的研究人员;CBMM研究人员Tomer D. Ullman博士'15。

现实不匹配

ADEPT依赖于两个模块：一个“逆向图形”模块，该模块从原始图像中捕获对象的表示;一个“物理引擎”，该引擎根据可能性的分布预测对象的未来表示。

帮助人工智能掌握物理的基本定律可以使它们更复杂

逆向图形基本上是从像素输入中提取对象的信息，例如形状，姿势和速度。该模块将视频帧捕获为图像，并使用逆向图形从场景中的对象中提取此信息。但这并不会陷入细节上。ADEPT仅需要每个形状的一些近似几何即可起作用。在某种程度上，这有助于模型将预测广义化为新对象，而不仅仅是对其进行训练的对象。

“物体是矩形或圆形，还是卡车还是鸭子，都没关系。ADEPT只是看到有一个物体处于某个位置，并以某种方式移动以进行预测。” Smith说。“类似地，在进行物理预测时，幼儿似乎也不太在意诸如形状之类的某些属性。”

这些粗略的对象描述被输入到物理引擎中，该引擎可以模拟物理系统(例如刚体或流体体)的行为，通常用于电影，视频游戏和计算机图形学。乌尔曼说，研究人员的物理引擎“将物体及时向前推”。这将为下一帧中的这些对象产生一系列预测或“置信度分布”。

接下来，模型观察实际的下一帧。它再次捕获对象表示，然后根据其置信度分布将其与预测的对象表示之一对齐。如果物体服从物理定律，则两种表示形式之间不会有太大的不匹配。另一方面，如果该对象做了不可思议的操作(例如，它从墙后消失了)，则将出现严重的不匹配。

然后，ADEPT从其信念分布中重新采样，并注意到该物体完全消失的可能性非常低。如果概率很低，则该模型会将很大的“惊喜”记录为信号尖峰。基本上，惊喜与事件发生的概率成反比。如果概率非常低，则信号尖峰非常高。

“如果物体在墙后，则您的物理引擎会认为该物体仍在墙后。如果墙倒塌了，什么都没有，那就意味着不匹配。”厄尔曼说。“然后，模型说，'我的预测中有一个物体，但我什么也看不到。唯一的解释是它消失了，这令人惊讶。”

违反期望

帮助人工智能掌握物理的基本定律可以使它们更复杂

在发展心理学中，研究人员进行“违背期望”测试，在其中向婴儿展示了成对的视频。一段视频显示了一个合理的事件，物体遵循了他们对世界运作方式的预期观念。其他视频在各个方面都是相同的，只是对象的行为以某种方式违反了预期。研究人员通常会使用这些测试来测量发生了难以置信的动作后婴儿看着场景的时间。研究人员推测，凝视的时间越长，他们对所发生的事情可能会感到惊讶或感兴趣。

对于他们的实验，研究人员基于经典开发研究创建了几种方案，以检查模型的核心对象知识。他们雇用了60名成人，观看了64个视频，这些视频在身体上看来合理和在身体上难以置信的场景中。例如，对象将在墙后移动，当墙掉落时，它们仍将存在或消失。参与者在各个时刻以0到100的等级对他们的惊喜进行评分。然后，研究人员向模型显示了相同的视频。具体来说，这些场景检查了模型捕获永久性概念(对象不会无缘无故地消失或消失)，连续性(对象沿连接的轨迹移动)和坚固性(对象不能彼此移动)的能力。

ADEPT在视频中特别适合人类，视频中的物体在墙后移动并在移开墙后消失。有趣的是，该模型还匹配了人类不感到惊讶但也许应该感到惊讶的视频上的惊奇程度。例如，在一个视频中，以一定速度移动的物体在墙后消失并立即从另一侧出来，当该物体在墙后移动时，可能会急剧加速，或者可能已经移动到另一侧。总的来说，人类和ADEPT都不太确定该事件是否令人惊讶。研究人员还发现，传统的神经网络从观察中学习物理原理，但并未明确表示物体，因此在区分令人惊讶的场景和不令人惊讶的场景方面，准确性要差得多，

接下来，研究人员计划进一步研究婴儿如何观察和了解世界，以将任何新发现纳入其模型。例如，研究表明，当物体完全以某种方式发生变化时，直到一定年龄的婴儿实际上并不感到惊讶-例如，卡车消失在墙后，却像鸭子一样重新出现。

史密斯说：“我们想看看还有什么需要内置的东西，以便更像婴儿一样理解世界，并使我们对心理学的认识正规化，以建立更好的AI代理。”