这篇文章翻译自美国、欧洲、日本的七位计算机视觉领域的学者共同就 2014年8月 在奈良大学召开的 AR 发展研究探讨会写的一篇总结性质的论文。在这篇论文中,学者们界定了何为真 AR 并且阐述了其发展方向以及发展壁垒,提供了一些较有价值的观点和看法,学者们认为需要采取一种类似 AR 图灵测试的方法来界定 AR 发展的程度,并认为光场是最有可能实现 AR 的途径。文章内容并不艰深,原文在http://arxiv.org/pdf/1512.05471v1.pdf上可以下载,我在这里对论文进行了一定程度的简化,并且增加了一些图片方便不同领域的朋友理解。当然,这篇文章关于 AR 的看法也只是一家之词,欢迎各位业内专家讨论和指正。
近年来,增强现实(AR)和虚拟现实(VR)在商业领域上获得颇多的关注,从 Facebook 以 20 亿美元收购的 Oculus VR,获得 5 亿美元融资的 Magic Leap,再到微软宣布的头戴式电脑 Hololens,这不禁让人思考 AR 的发展究竟会指引人类走向何处:前所未闻的数字炼狱又或者幻想中的天堂终于成真?
这篇文章的主要观点来自 2014年8月 在 NAIST (奈良先端科学技術大学院大学) 举行的名为 “让 AR 成真” 的研讨会。十位来自不同国家的科学家被邀请参加了为期 3 天的讨论。(感兴趣的朋友可以参考研讨会网页,有一些录像资料:http://imd.naist.jp/~sandor/marr/)
无论是 AR 还是 VR,都与我们的日常生活经验都相差甚远。VR 让用户彻底沉浸其中,譬如说让用户感觉仿佛在月亮上行走;而 AR 则将内容直接嵌入用户生活中的真实环境,譬如用户在购买家具之前可以提前预览它放在自己家里的样子。我们相信,随着技术日新月异,AR/VR 体验将越来越难与真实区别开来。从技术的角度来说,AR 显然更具挑战性。我们不仅需要创建高度适配且具真实感的虚拟媒介,还要使他们能够连贯地融合到用户真实生活的环境中。在这篇文章中,我们更关注于 AR,因为任何 AR 系统都可以很容易地转换为 VR 系统,我们只需要将用户的外界真实世界关上就可以了。为了区别我们所述的 “无法与真实分别的真 AR(Indistinguishably real AR)” 和目前的 AR 系统,我们将前者称为真 AR(True AR)。
在接下来的文章中,我们将讨论处于更高阶段的真 AR:为什么它是值得期待的(第一节)?究竟什么是我们所谓的真 AR?能通过一个明确的测试来定义它吗(第二节)?有什么途径能过实现真 AR(第三节)?然后,我们讨论了更多细节上的难度:技术方面的(第四节)以及伦理方面的(第五节),最后做了一个总结(第六节)。
1.为何我们需要真 AR?
当我们满足生存需求以后,我们则开始被追求更丰富的体验的欲望所驱使。我们的真实生活往往充满局限,这些局限可能是物理上的(我们的移动速度永远无法超过光速),生理上的(人类无法在深水处靠自己进行呼吸),伦理上的(我们不能为了追求自己的自由就去伤害其他人的自由),又或者仅仅是很现实的经济原因——譬如虽然人类曾经在月球上行走过,但其纯粹的难度和花销就让我们大多数人无法真实去拥有这些体验。
然而我们人类的想象力却从来不受这些局限所控制,想象力能跨越任何边界。从古至今,人们都是依靠种种媒介来兑现想象力的,从最早围着篝火讲故事到现在处处可见的电视,人们依靠媒介传达自己思维里的世界。然而与此同时,传统媒介所能传递的容纳性非常有限,只能表述真实生活可能性的一二。随着 VR 技术的出现,我们可以创造一种焕然一新的媒介体验,远远超越于预录好的电视节目 / 电影所带来的被动接受体验。在数字仿真的环境中,我们可以与充满互动性的虚拟世界进行沟通。AR 在交互性上甚至超过了 VR:它不仅能反馈使用者,还能融入使用者周围的环境。尽管从技术上来说 AR 是包含 VR 的扩展集,它对真实感知的要求的起点却是比 VR 要低。譬如说,一个车载的抬头数字显示器为了准确显现出夜晚行人的轮廓并不需要对光线照射的精确仿真,只需要予以高亮提示即可。
随着科技不断进步,传统媒介之间的界限开始模糊(譬如:电话与视频聊天,或者报纸与交互网页)。与之类似的,随着第一部为 VR 头盔定制的交互性电影诞生,VR/AR 与曾经被动的媒介(电视电影等)之间的界限也开始模糊。随着需求的增加,我们相信在我们这一代人的生命中终将会触及到真 AR 发展的时刻。不过需要我们思考的是,现在有没有明确的标准可以判断是否实现了真 AR?
2.什么是真 AR?
1950年,艾伦·图灵提出了图灵测试,也是人工智能(AI)领域里的重要概念,他提出了一种 “模拟测试”(imitation game)来测试人工智能系统是否已达到人类智能的程度,在计算机图形(Computer Graphics)和视觉计算(Visual Computing)领域中也曾被提出过类似的测试。在这一章节中,我们将讨论一种或可称为 “AR 图灵测试” 的方法,即 AR 效果趋近真实的完美程度。
图灵测试的魅力之一在于它严格控制测试者和拟真系统的接触,因此所有的拟真性都在测试范围为之内(特指 “思维认知”——cognition,而不是类似于人类的图像识别能力,因为这远超于 50年 代的计算机所掌握的能力)。考虑到 AR 的应用之间相差甚远,我们认为制订一条单一且永远正确的测试条约是不大有可能的。因此我们更关注于规范测试场景的维度,并根据交互性来决定是否通过测试。通俗来说,我们定义 “真 AR” 为更改用户周围的环境状态而无法被用户识别出来。那么这个测试的最重要的参数就是哪些感官可以被用来判断——因为如果用户能够用手触碰来判断虚实与否,那么再智能的头显都将无法通过测试。
另一个评判标准是虚拟世界与真实世界的连贯一致性:用户是否能使用一个虚拟的显微镜(如果有的话)去观察一个平面?或者一台虚拟 CT 扫描仪?能通过 AR 设备做一道菜并且吃掉?又或者,花上足够长的时间来看看 AR 设备里季节上的变化是否符合用户的预期?
第三点,如果需要穿戴特殊装备,真实世界与增强真实之间的转换是何如处理的?有一种方法是真实的和虚拟的内容同时出现:让测试者戴上特定头显,然后揭开挡住视线的盒子,由测试者来判断,哪一个盒子中的苹果是真的哪一个拟像?
3.如何实现真 AR
在过去,一些可能实现真 AR 的手段也曾被讨论过,其中有两种曾在 Ivan Sutherland(计算机图形学和虚拟现实的先驱)60年 代早期的研究成果中提出,Sutherland 如是描述这个假象的 “终极显示器(Ultimate Display)”:
终极显示器必将会是这样,在一个房间内,由电脑可以控制一切存在的物体。人能够坐在房间中显示的椅子,被显示的手铐能控制住,而在这个房间内显示的子弹则可以致命。
在这里,Sutherland 定义了真 AR 的最终形态:创造,控制并且破坏园子,其要义颇符合星际迷航中的可以呈现事物三维图像的全息甲板的描述以及早期科幻小说中的场景。
然而,Sutherland 的假想存在巨大的技术屏障,比如应用在该场景的原子是高速变更的。Sutherland 在三年之后解决了其中一些问题,他自己研发了一个立体头显设备(由于体积特别庞大被戏称为 “达摩克利斯之剑”),其中三维位置和方向可被追踪,这能让他投射出的抽象物体看上去存在于使用者所在的物理环境之中(即 “向用户提供一种你移动它也变化的透视图景。”)。不过这个头显也并非去控制用户周围的原子,而是精心测量用户所感知的周围环境并且显示原子重构的幻想。
在接下来的内容,我们将描述四种能实现真 AR 的主要方法,根据物理特性来区分排列:从 “控制原子” 到 “控制感知”。
控制实体物质(Controlled Matter),就像 Sutherland 所述的那样,通过原子重构可能是实现 AR 的最理想的方式。通过快速重构原子创建的物理实体,对于所有使用者来说,在所有感官体验上都将会达到完美一致。然而,这是具有巨大的技术屏障的,包括能量的提供和安全性问题。尽管尚没有相关的通用设备面世,不过有一些在特殊条件的相关装置已经有所发展。
举个例子,现在已经有利用磁场在铁磁流中快速形成形状的装置了。不过这个装置的局限性在于这个组成的形状不是稳定的,又因为在强大的磁场之中,出于安全考虑也不能被人所触碰。其他的一些利用超声波场或者电磁流使固态漂浮的装置则试图解决固态稳定性的问题(如下图,几位日本科学家正在做相关研究),不过这样的装置还是存在安全问题,因为装置覆盖着强大的力场。
另一个更常见的手段是利用桌面的针管阵列(tabletop pin-arrays),这样既是实体又是可以被触碰。不过,针管必须被驱动来变形,这就严格限定了可呈现的形状的高度范围,因而既无法表现悬空形态也无法呈现多层结构。
环绕 AR(Surround AR)。在呈现 AR 的手段中,仅次于控制原子的是控制光子。虽然用户在这种 AR 装置下仍然无法触摸到实体,不过却可能在视觉上达到虚拟和现实完全难以分别的效果。由于我们的主要的知觉维度取决于视觉,视觉上的模拟和增强是极其重要的。
能最大程度完成视觉保真的装置应该是这样的:周围的环境完全被屏蔽,取而代之的是全新的视觉效果;又或者最基本应该使光影的效果能达到人眼观察的完全一致(类似我们常常说的全息投影)。这样的光场装置有其优势:不需要跟踪用户的行动,也就意味着可以多个用户同时看到 AR 场景。
即使在数字革命之前,100 多年前就有集成摄影术或者集成成像(integral photography)都能通过照相底片上的微透镜阵列达到这种效果(即获得三维呈像)。
全息摄影(Holography)通过干涉的方式记录被摄物体的反射波。但在实际操作上这些解决方案仍存在局限,庞大的图像数据信息需要与之匹配的巨大的动态装置,这让这两种解决方案仍然离真 AR 很远,不够目前全息摄影的方案使用得更多。至于触觉,英国布里斯托大学的 Benjamin Long 和他的同事们提出了用超声波刺激用户皮肤来模拟触觉,此方案已得到证明。
个体 AR(Personalized AR)。除了在用户周围投射整体的环境效果,我们还可以在用户目前所看到的场景内增加一个部分,这样一种修改用户认知的要求相对容易,Sutherland 的头戴设备就是第一件完成这个效果的装置。不过这个方法的麻烦之处在于必须追踪用户的视点,迅速刷新并且需要极低延迟率。另外,如果更多的用户需要参与进来,那么复杂性陡然增加,个体 AR 在目前是非常常见的,譬如 Meta, HoloLens,Lumus 在做的都是这里所述的个体 AR。
植入 AR(Implanted AR)。在我们描述的虚拟化进程中,极限并不是重构原子又或者传输光子给用户,而是直接控制用户的感知系统。这种方法在科幻小说 / 电影中历史悠久,包括《黑客帝国》和《全面回忆》(Total Recall)中都有类似的想象。未来学家预言这是改变我们真实生活的终极方法;雷·库兹韦尔(Ray Kurzweil)曾在《奇点临近:当计算机智能超越人类》一书中如是描述:“纳米技术会改进我们的身体……人类将可以通过神经接口直接连接电脑或者一直活在虚拟现实里。” 近年来,由于仿生眼的成功案例,这种方案愈来愈受关注。通过用电流直接模拟视网膜和视觉皮质,盲人能够重获视觉。例如 Argus 系统(帮助视障者可见)已经在 2011年 被欧盟批准商用,2013年 被 FDA 批准商用。目前,这个方案尚没有运用到增强健全人的现实体验上。
总而言之,我们认为短期内最为可行的 AR 手段是个体 AR,不过其他的手段从长远看来都将得到发展,而相关的障碍也有待被突破。
4.1 光场显示的案例
对于视觉的研究,技术的发展一直不均衡。譬如色彩重构,尽管没有完全解决,但是目前的效果已令人满意,而且其他更好的解决方案也已被理解,指日可待。
另一方面,现代的在空间中显示图像的方案也已经可以达到人类视觉的效果;譬如说所谓的视网膜显示(Retina Displays),以及在像素密度(ppi)上,一些厂商甚至能超过视网膜显示。但是有一方面却被忽视了——通过增加像素密度来呈现人类视觉系统的方法只能应用于平板设备。为了能与世界更好的交互,我们需要更好的设备。事实上我们可以通过增强角分辨率来更好地描绘人类视觉系统;而且,在本质上,增加像素密度就是增强角分辨率。不过如果我们仅仅是简单地复制出这些,那么我们只是把眼镜当做了一个针孔相机,也就是一个从根本上来说不完善的设备。
人眼是一个非常复杂的光学系统,具体而言,它包括一个能调节屈光力和光圈的 “镜头”。这个系统具有自适应能力,并根据我们看到的不同图像进行无意识的光学上的反馈。另外,人眼的光学系统还可以在场景变换中进行重新聚焦以完成自适应,人眼产生的这种视觉特性是在平面图相中无法传递的(比如镜头模糊或者失焦)。为了实现真 AR,我们需要给每只眼睛呈现光在真实场景下光强分布。
空间中光强的分布一般用全视函数(Plenoptic Function) 来建模。它至少包括六个维度:观察者视线需要三个维度,观看方向需要两个,波长需要一个。这样密集的采集和重构是非常昂贵的,有一个假想能让这两项工作都相对容易,那就是:由于环境信息是从外界观察到的或者说是呈现的,因此使光谱辐射直线传播,也就降低了光场呈现的难度。
3D 立体影院的原理一部分来自这个理论:给人的两只眼睛提供不同视点的视觉信息。立体影像提供了两个不同的画面和不一致的视差,由于人的眼睛并不是一个针孔系统,缺失的视差需要进行弥合,这就限制了能呈现的画面以及可能会造成观众包括头痛在内的不适感。
最后的结论是我们还是需要全光学装置(Plenoptic displays)来实现真 AR,然而目前的相关技术仍处于萌芽阶段。虽然已有一些现有的研究雏形能够给单个用户在带来有局限性的体验一瞥,但是这些研究雏形在其他的领域中仍呈短板状态,这要是分辨率的问题。为了提高分辨率到多人可视的阶段,尚有非常广阔的研究余地。
这里有两种主要方法能将光场呈现的虚拟物体融入现实中。首先,我们能够将这些光场投射到用户的直接视野中。另外,我们可以捕捉用户周围环境的光场,把我们想要呈现的光场融入其中,将这种混合的光场效果呈现给用户。两种方法各有优劣,第二种在技术上更为困难,但是有着固有优势,包括能够更好地处理真实与虚拟物体之间的契合。在下一节,我们会更详细地讨论光场的捕捉。
4.2 光场的捕捉
投影仪和照相机能够显示相同的几何图形,而前者发射光线,后者捕捉光线,从这种意义上说,照相机和投影仪是成对的。全光学传感器和显示器也是类似关系。不过,密集的光场信息采集和显示仍然是一个高维度的困难问题,解决方法必须能应用在基于非对称结构的假想环境中。正如我们在一节讨论的,捕捉这一环节实际上要比呈像容易得多。
一个纯光学感应设备的构建通常是基于一个理想化的既定环境,譬如说限定场景只能发生在朗伯表面(一个无论从任何角度看发光强度都一致的表面)或者是无光遮蔽的地理环境。在这些情况下,观看者周围的场景实际上是在一个更低维度的模型之中(可能仅仅只是从特定角度观看的具有深度信息的彩色地图),强大的 3D 重构算法可能能通过两处不同视角画面作为输入信息来生产足够完整的场景重构画面。从采样定理(Sampling Theory)的角度来看,这就好比利用两个相距较远的拍摄视点来观测全光方程。
同样是依据采样定理,显示装置构建出一个可被人眼持续看到的光场。即使是需要渲染的场景呈任意精度,显示器都需要将其重构为一个人眼系统可见的完整的连续的画面。这种显示技术的优长之处在于利用了人眼系统的视觉缺失特质,从而构建出一个近似于人眼视觉效果的光场信号——也就是只要人眼系统认为已经是完美就足够了。譬如色彩感知,完全可以采用较窄的光谱中主要的几个颜色就能实现,即使只用红绿蓝这三原色都可以在很大程度上涵盖色彩的范围了。不过,这也仅仅是理论可行,因为从采样定理的角度上讲,人类视觉系统中含有低通预处理滤波器,故具有光谱敏感度。
至于空间信号的差异,即不同的视角,密集的采集通常能解决这个问题;视网膜显示器(Retina display)和 4K 电视越来越接近人眼视觉系统的分辨极限。人人眼瞳孔的收缩扩张可适应不同入射光强的光场,不过,由于人的瞳距和屈光率不尽相同,粗略的输入信息采集是不够的,为了在瞳孔过滤之后仍能实现视觉保真,需要针对每一种瞳孔采集多样的信息(比如来自不同视角的画面)。对于重构来说,相比光场传感器对采样的要求,光场显示器对采样的要求更为苛刻,因为显示需要更多个体偏差可控的样本。
所以,虽然科技的进步过程是不可预知的,不够我们仍然期待在不久的未来,光场传感器的发展将走在光场显示器的前面。
(如果对光场概念不甚理解,可看这篇科普:http://www.leiphone.com/news/201511/DYfUD9D07nj7m6iB.html)
5.AR 所面对的伦理问题
真 AR 会遇到怎样的社会伦理问题呢?由于 AR 是一项全新的技术,按照马克思的理论,“权力” 是不可避免的议题:谁将控制 AR 的使用?谁将最终掌握增强现实的内容?使用 AR 的目的又将是什么?人类个体会因为使用 AR 而获得自由,还是恰好相反,被困在纯粹的商业驱动的体验之中?
这些问题从某种程度上来说是直指目前存在的任何科学技术以及信息掌控的核心的,从书籍与古腾堡革命(活字印刷术革命)到最近 NSA 对电子通讯造成巨大威胁的丑闻。不过,我们还是相信真 AR 能将信息混合入真实世界并且能真正解决差异化的问,将会是人类所拥有的最有效的媒介。我们将不再处于柏拉图所述的 “洞穴” 的阴影之中,在那个隐喻中唯有智者能瞥见真实的一角,更多人只能凝视着墙上火光的阴影并以为那就是全部的真实,而现在我们将有可能看到阴影与真实紧密地交织在一起。而基于精心控制的幻象,我们也将无法分辨哪些是在那里的,而哪些又是其他人或者人工智能体想要让我们相信在那儿的。
既有趣又令人但有的是真 AR 对个体日常生活的直接影响:越过世界的虚幻与欺瞒,对真实世界更深层次的理解,会提高人的生活质量以及人与人的沟通理解吗?譬如,告诉我们一个产品的源头在哪儿或者它是怎样被产生的。又或者,它会是使我们互相疏离遥远沉溺于幻觉之中的工具?对于佛教徒来说,真实就是一场梦境,轮回中充满了阻止我们醒来的刺激性因素,因为我们不停下来去冥想,而是应对这些刺激。不是控制,而是响应(React),是滥用信息技术最恶劣的后果之一。譬如说,一些研究表明持续使用社交媒体会降低青少年注意力集中的时间。从这个角度来看,真 AR 可能是幻像的新的层次,又或者恰恰相反,能帮助人们拨开迷雾,去粗取精。
让我们回到最初的关于 “权力” 的问题,这也是任何媒介中最核心的问题。自由获取信息的途径以及公开教育程度是衡量社会公正性的重要评判手段,这让人想起 2011年 的一则新闻:美国人权协会引导媒体去建议使用英特网络是人类一项基本的权力。不过,真 AR 有着其独特的气质:它有将生活在增强现实世界中的人和生活在信息缺失的地区的穷人彻底隔离开来的能力。这种隔离将前所未有地影响一个人获得机会的概率,因为 AR 将能够持续影响我们感知周围物理环境的能力。我们已经能从最近的新闻上看到这种讨论的趋势,在洛杉矶第一批使用上谷歌眼镜的用户显得格外不招人待见,被蔑称为 “Glassholes”。关心社会议题的人提出谷歌眼镜是使人具有类似超人能力的装备的早期形式,在公众场合佩戴这样一种设备有强烈的歧视的意味和影响。谷歌眼镜事件让我们看到群众发自本能的以及要求民主的反应,这也将是之后 AR 发展所必将引起的讨论。(参考:http://www.huxiu.com/article/29905/1.html)
我们的第二个问题是有关真 AR 可能会给用户带来的错误的导向。如果在我们的日常生活中,真 AR 拥有了无限深度的感知,会发生什么?诚然,我们需要认识到 AR 技术将不仅仅是能够通过物理上将虚拟物体完美嵌入真实环境中来欺骗我们的感官,与此同时还会给予我们实时所需要的更精准的信息来增强我们感知的能力。这将带来增强的自我意识并最终成为元知觉。当我们与人接触时,我们能够通过 AR 眼镜瞬间 “看透” 他们的个人所有信息包括隐私;然后,回到我们第一个问题,如果人与人之间 “看” 的方式不再相同了,神圣的公正性即被侵犯,类似于 Steve Mann 根据监视的不对称性引申出的 “反监视”(Sousveillance)的概念(个体对外界进行记录和监视的行为)。譬如说,现在已经证实能利用 AR 去看穿墙壁以外——利用谷歌 Project Tango 的 3D 建模就能让这个技术完全普及。AR 防火墙或许能解决这个问题,但总有其他方式会影响 AR 的 “对等性”;又或者我们能采用类似的 VR 技术时自己呈现出其他的 AR 用户的信息而对他人不可见。无论是从技术方面思考,亦或是从伦理角度看待,这些关于权力的问题与 AR 的对等性密切相关。
真 AR 会是民主的,公正的技术吗?如果是的,那么它会在未来多久才能实现?最后,如果实现了,信息的高度透明化又会对我们的日常关系带来怎样的影响?信息,包括情感信息,正是流通在人与人之间的 “货币”。无论是自然的还是人工的,它的稀缺性使其珍贵并帮助我们在这个世界上利用人际关系来贸易买卖。当人与人之间毫无遮挡,那么人际关系也将贬值,但同时差异歧视则能被消除,并且还能避免权力上的滥用。
6.小结
作为这次讨论会和这篇文章的结尾,我们得出了两条发现。一方面,我们意识到真 AR 是建立在当代其他非 AR 成果之上,这些成果将传统学科进行了融合:包括光学,计算机图形以及计算机视觉;以及我们需要运用包括伦理学,艺术,哲学以及其他社会科学的理论去引导这项技术的应用。
另一方面,技术的迅速发展让我们前所未有地接近了真 AR,这也促使我们去制定更为明晰的目标。一个可行的方案即是 AR 图灵测试作为客观评判是否达成真 AR 的标准,因此我们格外相信 AR 图灵测试的发展应该提上日程。正如我们讨论的那样,设计这样一个测试并不容易,然而要给我们和他人形成一个完全模糊真实和虚拟界限的可衡量目标,又是十分必要的。
感谢辛拉面挖到此文以及光学技术顾问 Big-Eyed Chink.
关于:中科研拓
深圳市中科研拓科技有限公司专注提供软件外包、app开发、智能硬件开发、O2O电商平台、手机应用程序、大数据系统、物联网项目等开发外包服务,十年研发经验,上百成功案例,中科院软件外包合作企业。通过IT技术实现创造客户和社会的价值,致力于为用户提供很好的软件解决方案。联系电话400-0316-532,邮箱sales@zhongkerd.com,网址www.zhongkerd.com