阴影边缘周围有一些肉眼不可见的信息，

暴露了藏在拐角后的对象。

导语

计算机视觉的研究员们发现了一个全新的世界，它隐藏在我们中间，包含了很多视觉信号，比如体现环境变化的细微动作，角落四周的模糊图像。

编译：集智俱乐部翻译组

来源：quantamagazine

原题：The new science of seeing around corners

Antonio Torralba 是一名研究计算机视觉（ Computer vision ，以下简称“ CV ”）的科学家。2012年，他在西班牙海岸度假时，注意到酒店房间的墙壁上有一些散落的阴影，但却找不出这些阴影的来源。

后来，Torralba 意识到，墙上的浅色光斑并不是阴影，而是窗外院子的微弱倒影。窗户就像一个简单的针孔照相机，光线穿过小孔，在室内的墙壁上投射出院子的倒影。足够亮堂时，墙上几乎看不到任何图像，但 Torralba 意识到，世界上还充斥着很多我们肉眼看不见的视觉信息。

他说，“表面来看，这些图像是隐形的，但其实，它们一直在我们身边。”

MIT的CV科学家，Antonio Torralb |Lillie Paquette / MIT School of Engineering

Bill Freeman 是 Torralba 的同事，两人都是 MIT（ Massachusetts Institute of Technology ，麻省理工学院）的教授。Torralba 在酒店中的经历让他们意识到，生活中还存在着很多类似的相机，他们把这些相机称为“偶然相机”（ accidental cameras ）。

除了窗户，自然界的偶然相机还有：拐角、室内植物、以及能够创造环境微弱倒影的其他物体。一般来说，我们看不见这些倒影，它们比其他图像暗了有1000倍。对此，Freeman 说道：“我们已经找到了取出这些图像，并让它们变得可见的方法。”

两位教授研究了在我们眼前，究竟隐藏了多少视觉信息。在他们的第一篇论文中， Freeman 和 Torralba 展示了他们的成果——用 iPhone 拍摄的房间墙上变化的光线，被成功地处理成了窗外的场景。

论文1：

http://people.csail.mit.edu/billf/publications/Accidental_Pinhole.pdf

题目：

Accidental pinhole and pinspeck cameras: revealing the scene outside the picture

去年秋天的一场会议中，两人及其合作者报告说，他们可以通过拍摄拐角附近的地面，发现有人在拐角的另一侧移动。

报告：

https://people.csail.mit.edu/klbouman/pw/papers_and_presentations/cornercam_iccv2017.pdf

题目：

Turning Corners into Cameras: Principles and Methods

在今年夏天出版的论文里，他们展示了更进一步的成果。通过拍摄室内植物，利用植物叶子投射的不同阴影，可以重建房间其余部分的三维图像。他们还实现了通过放大叶片的振动，听取环境中的声音，这时的叶子就像一个“可视化麦克风”。

论文2：

http://openaccess.thecvf.com/content_cvpr_2018/html/Baradad_Inferring_Light_Fields_CVPR_2018_paper.html

题目：

Inferring Light Fields From Shadows

在Torralba住的房间外的院子里，他发现房间的窗户偶然间起到了针孔摄像机的作用（图1）。用卡纸遮住大部分窗户，减小针孔的尺寸，可以让投射在墙上的图像（2）变得更加清晰（3）。倒过来看，图像展示了院子里的场景（4）。

2014年，科学家利用空芯片袋的运动重建了一段音频，音频的内容是一位男士的讲话：“Mary had a little lamb…”（1877年，爱迪生用留声机录制的第一句话。）

var audio1 = new BeePlayer({element: document.getElementById(“audio-1”),music:{title: “爱迪生”, author: “”,pic: “http://swarma.org/wp-content/plugins/beepress/lib/player.png”, url: “http://res.wx.qq.com/voice/getvoice?mediaid=MzIzMjQyNzQ5MF8yMjQ3NDkxMDA0”}}); audio1.init();

利用一个空芯片袋的微小振动，重建了“Mary Had a Little Lamb”这段录音，通过隔音窗可以看到这个芯片袋。

2012年，Torralba 和Freeman 发表了“偶然相机”论文（即论文1）；同年，MIT校园中的另一个小组，由 Ramesh Raskar 领导的团队，也发表了他们的成果。

论文3：

https://www.nature.com/articles/ncomms1747.pdf

题目：

Recovering three-dimensional shape around a corner using ultrafast time-of-flight imaging

这两篇论文的意义是里程碑式的，基于他们的工作，研究员们开始了对“非视线成像”技术的探索，即如何看到角落的图像，并推断不直接可见的信息。

2016年，在这些成果的推动下，DARPA（ the Defense Advanced Research Projects Agency ，美国国防高级研究计划局）投入2700万美元，开展了 REVEAL 计划（ Revolutionary Enhancement of Visibility by Exploiting Active Light-fields ，利用主动光场提高能见度），为全国各地一些新兴实验室提供资金。

从那时起，一系列数学技巧和新见解的应用，使“非视线成像”变得更加有力和实用。

显然，该技术会在军事和间谍领域发挥不错的作用，此外，研究人员也探讨了其在无人驾驶汽车、机器人视觉、医学成像、天文学、太空探索和搜救任务等场景中的应用。

Torralba 说，走上这条路时，他和 Freeman 并没有任何特别的想法。他们只是在钻研，不停地研究图像形成和相机构成的基础知识，这自然需要对光的行为，对它与环境中的物体和表面之间的相互作用更全面的研究。之后，他们看到了那些从没人想过要找的东西。

Torralba 指出，心理学研究表明，“也许是因为我们看到的大多都不是真正的阴影，理解它们才变得那么困难。甚至到后来，眼睛也不再尝试去理解它们了。”

“偶然相机”

记录下了什么？

光线承载了我们视野之外的图像，它们不断地打在墙等其它表面上，并反射进入我们的眼睛。但是，为什么这些图像如此的微弱呢？

这是因为，无数光线游走无数个方向里，它们被分散了。

当被投射的表面只允许通过一组特定的光线时，就需要极大地限制落到表面上的光线，才能够形成一幅图像。这就是针孔摄像机的原理。2012年，Torralba 和Freeman 得出了如下结论：环境中有许多物体和特征会自然地限制光线，形成足够被计算机检测出来的微弱图像。

由于被成像物体上的每个点，都只发射具有正确角度的单一光线，以便能够穿过小孔，所以针孔相机的孔径越小，所得到的图像就越清晰。Torralba 酒店房间的窗户太大，无法产生清晰的图像。他和 Freeman 也知道，一般来说，有用的“偶然针孔相机”很少见。

但是，他们意识到，任何小小的遮光体都可以组成一个“逆针孔相机”（或“针点相机”），这种相机形成的图像到处都是。

MIT的CV科学家，Bill Freeman |Lillie Paquette / MIT School of Engineering

想象一下，你在透过窗帘的缝隙拍摄房间的内壁，当然，看不到多少东西。

突然，一个人的手臂进入了你的视野。

比较手臂出现前后墙上光的不同强度，可以得到环境的信息。第一帧时，打到墙上的一组光线，被下一帧出现的手臂暂时挡住了。Freeman 说，用第一帧图像的数据减去第二帧图像的数据，“可以提取出被手臂遮住的东西” ——一束代表房间部分图像的光线。“如果你分别观察过阻挡光线，以及让光穿过的物体，你可以发现更多存在这些针孔状图像的地方。”

除了研究小强度变化的“偶然相机”工作外，Freeman 和他的同事还设计了一种算法，用来检测和放大颜色的细微变化（比如人脸上血管中血液的进出）和一些微小的动作（比如芯片袋的震动），像百分之一像素大小这样细微的运动，常常会被埋没在噪声里。

但现在，研究员们可以很轻易地发现这些小动作。

通过将图像转换成正弦波的结构，利用数学方法可以有效地实现目标。正弦波代表许多像素的平均值，可以分散噪声，所以转换空间后，信号不会受到噪声的干扰。

因此，研究人员可以检测两帧之间正弦波位移，并放大这些位移，将数据变换回来。

现在，研究员们开始结合这些不同的技巧，来获取隐藏的视觉信息。去年10月，在 Freeman 当时的研究生 Katie Bouman 领导的研究报告中，他们表明，建筑物的角落可以充当相机，显示拐角处物体粗糙的图像。

图注：通过拍摄拐角附近地面上的半影和暗影（1），可以获得角落周围物体的信息（2）。当隐藏区域中的物体移动时，它们投射到半影上的光相对于墙壁扫过不同的角度，这些细微的强度和颜色变化通常是肉眼看不见的（3），但是，它们可以通过算法来增强。从半影的不同角度投射出光的原始视频，分别显示了拐角处一个人（4）和两个人的移动（5）。

和针孔，针点一样，边缘和拐角也会约束光线的通过。Bouman 和同事曾经在白天做过实验，利用传统的记录设备（ IPhone 也可以），拍摄了一座建筑物角落里的“半影”：角落周围隐藏光线中的一小部分，照亮了本影，就会形成圆锥形的半影区。

例如，一个穿着红衬衫的人走到角落时，衬衫会向半影区投射少量的红光，当人走路时，这种红光会扫过半影，肉眼虽然看不见，但用算法处理后就会变得很清晰。

6月，Freeman 和同事们发布了一项开创性的研究，利用墙边一盆叶子茂密的植物投射出的阴影，重建了一个房间的“光场”——一张显示室内光线强度和方向的照片。

叶子充当了针点式照相机，每个相机都阻挡了一束不同的光线。将每片叶子的阴影与其他叶子的阴影进行对比，可以发现其缺失的那一组光线，从而解锁隐藏场景的一部分图像。考虑到视差，研究人员之后会将这些图像拼接在一起。

由于算法中已经嵌入了关于环境的先验知识，这种方法产生的图像比早期的“偶然相机”产生的图像更为清晰。已知的室内植物的形状，假设自然图像趋于平滑的前提，以及其他允许研究人员对噪声信号进行推断的“先验知识”，都有助于锐化得到的图像。Torralba 说，光场技术“需要在深入了解环境的前提下才能进行重建工作，但它的结果能为你提供很多信息”。

“散射光”

的写真长什么样？

Ramesh Raskar 是 MIT 另一位研究 CV 的科学家，也是一位 TED 演讲者，他希望利用技术改善人们的生活。Freeman等人发现了那些藏在我们身边的图像，与此同时，Ramesh Raskar 也在做着相关的研究。

推荐TED：

https://www.ted.com/talks/ramesh_raskar_a_camera_that_takes_one_trillion_frames_per_second

题目：

Imaging at a trillion frames per second |

万亿分之一秒的图像

与 Freeman 团队不同的是，他采取的是一种“主动成像”的方法：利用昂贵的专业相机激光系统发射激光，并拍摄返回的光线，绘制出角落周围的高分辨率图像。

Ramesh Raskar是MIT的一位CV科学家，他提出了一种主动“非视线成像”技术。 |Courtesy of ACM SIGGRAPH 2017

2012年，Raskar 和他的团队实现了他五年前的一个想法。

他们开创了一项技术，朝墙上发射一束激光，激光撞击墙面，这束光散射到各个方向，其中一些光打到隐藏的物体上，这些光也会散射，打到墙壁上，墙壁接收到来自隐藏物体的散射光后，进行反射，最终，一小部分光会返回相机里。每次脉冲后的瞬间，使用超高速扫描照相机，以每秒数十亿帧的速度记录单个光子，以检测从墙壁反弹回来的光子。

通过测量返回光子的飞行时间，研究人员可以知道它们走了多远，从而重建出藏在屏障后物体的详细三维结构。

该技术的不足在于，必须用激光光栅扫描墙壁，才能形成三维图像。比如说，角落里有一个隐藏的人。“从头部特点的点、肩膀特定的点和膝盖特定的点发出的光，都可能在相同的时间到达相机，”Raskar 讲道，“但如果我稍微更改下激光照射的方向，那么来自三个点的光就不会同时到达。”必须把所有图像的放在一起，并解决所谓的“逆问题”，才能重建隐藏物体的三维结构。

在解决逆问题时，Raskar 采用的原始算法计算量非常大，他的实验设备花费了50万美元。好消息是，目前在简化数学和削减成本方面，该算法已经取得了很大的进展。Nature 杂志3月份刊登的一篇论文中，提出一种高效低成本的 3D 物体成像方法（该论文以兔子摆件为例进行了研究）。

论文4：

https://www.nature.com/articles/nature25489

题目：

Confocal non-line-of-sight imaging based on the light-cone transform

论文的三位作者 Matthew O’Toole，David Lindell 和 Gordon Wetzstein 来自于斯坦福大学，针对原始算法的问题，他们设计了一种强大的新算法，并采用了相对便宜的 SPAD 相机，这种相机的帧频率比 Raskar 使用的相机频率低一些。在其中两位作者的职业生涯早期，Raskar曾经指导过他们，他评价说，这种方法“非常聪明”，并表示，“这篇论文是我最喜欢的论文之一！”

在主动“非视线成像”中，墙壁散射出来的光线，打在隐藏的物体上（一个兔子摆件），摆件上的光线进行散射，打到墙壁上，再反射回发射点（相机所在的位置）。

图利用反射光对物体进行三维重建。

先前的算法有一个待理清楚的细节问题。

一般来说，研究人员会拍摄墙上不同于激光点的光子，这样他们的相机就可以避开激光的反向散射光。但是，通过把激光和相机指向几乎相同的点，研究人员发现射出和射入的光子可能出现的范围是相同的。光从表面散射时，会形成一个光子的不断扩散的范围，随着时间的推移，这个范围会形成圆锥形。

20世纪初，爱因斯坦的老师 Hermann Minkowski 提出了“光锥”的概念，来描述这一现象。 O’Toole 简化了这种说法，把光子的飞行时间与光锥表面的位置联系了起来，并将该过程称之为“光锥变换”。

目前，无人驾驶汽车已经具备了用于直接成像的激光雷达系统，可以想象，有一天，它也可以配备 SPAD，观察街角的情况。

Andreas Velten 是2012年，Raskar那篇论文的第一作者，他说道，“不久的将来，会提供手持形式的“激光SPAD”传感器。”他现在在 Wisconsin 大学带领一个“主动成像”小组进行相关研究。

Velten 认为，当前的任务是“进入更复杂的场景”和现实场景，“而不是必须非常小心地设置一个白色物体，周围全是黑色空间的场景。相机得能自动对焦。”

事物藏于何处？

在以上发展的基础上，Freeman 团队的研究员们开始了对被动和主动两种“非视线成像”方法的整合工作。博士后研究员 Christos Thrampoulidis 领导的论文中，介绍了他们的研究成果。

如果用激光进行主动成像时，角落里存在着一种已知形状的针点相机，就可以不需要光子的飞行时间信息，直接利用被动成像的方法重建隐藏的场景。 Thrampoulidis 自信地讲道：“我们应该用普通的 CCD 相机就能实现。”

有朝一日，这种技术会在搜救领域，自动机器人领域发挥重要的作用。Velten正在与NASA的喷气推进实验室（ Jet Propulsion Laboratory ）合作，开展一项对月球洞穴内部进行远程成像的项目。

与此同时，Raskar及其团队已经使用他们的方法实现了阅读闭合图书的前几页，透过迷雾看到远处一小段区域的功能。

此外，除了前面提到的音频重建工作，在健康、安全设备、检测天体的微小运动等方面，Freeman 的运动放大算法也能派上用场。David Hogg 是纽约大学和 Flatiron 协会的天文学家与数据科学家，他认为：“这是一个非常棒的想法，我们必须将它应用在天文学研究中。”

利用“非视线成像”技术，看到屏障后的事物，确实会引发对机密问题的讨论，对于这个问题，Freeman 有一些自己的思考。

“这是一个在我职业生涯中思考了无数次的问题。” Freeman 从小就是一个相机迷，他用它拍照，鼓捣里面的零件，沉醉在相机的世界里。

刚开始工作时，他从没打算过从事任何与军事或间谍相关的工作。但随着时间的推移，他开始认为，“技术是一种工具，可以在多种场景中使用。如果试图避免任何军事用途，那就永远不会做出任何有用的事了。“他补充说，即使在军事领域，“这种相机也有多种应用方法，比如帮助士兵看到躲避的攻击者，避免被杀死。通常来说，知道物体在哪里总是一件好事。”

但是，真正令他兴奋的，并不是技术，而是发现了身边隐藏的现象。 Freeman 认为，“世界上还有很多待发现的事物。”