人类所处的物理世界空间是三维的,对三维信息的获取和处理技术体现了人类对客观世界的把握能力。人和动物虽可通过自己的双眼来感知三维的世界,但无法对客观事物的三维形貌进行准确量化的描述。三维成像与传感技术作为感知真实三维世界的重要信息获取手段,为重构物体真实几何形貌及后续的三维建模、检测、识别等方面提供了数据基础。
图1 人和动物通过自己的双眼来感知三维的世界
随着计算机技术、光学和光电技术的发展,以光信号为载体的光学三维传感技术融合光电子学、图像处理、计算机视觉与现代信号处理等多学科为一体,已发展成为光学计量和信息光学的最重要的研究领域和研究方向之一。近年来,数字光投影器、空间光调制器、光探测器等光电成像器件,高性能计算机、嵌入式处理器等运算处理单元,数字信号处理、计算机视觉、机器学习等研究领域得到了跨越式发展,为光学三维成像与传感技术的进一步发展开启了更广阔的空间和机遇,相关的新机理、新体制、新技术、新应用不断涌现。2D摄像头向3D传感器的转变也将成为继黑白到彩色、低分辨率到高分辨率、静态图像到动态影像后的“第四次影像革命”。
图2 2D摄像头向3D传感器的转变将成为“第四次影像革命”
《红外与激光工程》于2020年第3期策划组织了“光学三维成像与传感”专题,共包含高水平稿件20篇,其中综述论文15篇,研究论文5篇。这些论文系统介绍了光学三维成像传感领域热点专题的研究进展与最新动态,主题全面涵盖了当前三维光学成像领域的前沿研究方向:结构光三维成像、条纹投影轮廓术、干涉测量技术、相位测量偏折术、三维立体显示技术(全息显示、集成光场显示等)、三维成像传感技术与计算成像相关交叉领域(如三维鬼成像)等。本期专题的首篇文章是来自南京理工大学智能计算成像实验室SCILab(www.scilaboratory.com)与南京锆石光电科技有限公司的研究人员联合撰写的“3D真的来了吗?—— 三维结构光传感器漫谈”。此文作为本期专栏的引子,概括性地综述了典型的三维传感技术,并围绕近年来消费市场上热门的三维传感技术及其所使用的散斑结构光传感器的发展背景、基本原理、关键技术、典型应用等方面进行了梳理;讨论了其现存问题、并展望了其未来发展方向,以求抛砖引玉。
图3 三维光学成像与传感的各种应用
本文首先对三维光学传感技术进行了简要的概述,包括光度立体视觉法、被动立体视觉法、飞行时间法、激光线扫法、散焦恢复法、结构光投影法等。简要分析了这些方法的优缺点与适用场景。随后介绍了消费市场中散斑结构光三维传感器的“前世今生”:由体感游戏的发展引导的“初次登台”到Kinect停产标志的“悄然谢幕”,再到从苹果iPhoneX手机的刘海中“重装上阵”,成为各大厂商竞相模仿的“万众焦点”,最终由人脸支付市场触发的“风口浪尖”转而成为我们身边的“无处不在”!
图4 3D支付宝与微信两大刷脸支付终端
本文对推动这一切发展的底层核心技术,即散斑结构光三维传感技术,进行了浅析。首先,以人类和动物用双眼感知三维世界为例,引出三维测量的基本原理——双目立体视觉。实际上,单个人眼和普通的相机无法判断看到的尺寸究竟是由于距离不同导致还是物体本身大小导致。例如下图里的例子中,两只摆放远近不同的且尺寸不一样大小的“兔子”竟然可以通过不同的观察视角变的一样大!
图5 单个视角无法无歧义确定深度信息
那么两只眼睛到底是如何获取三维信息呢?这就需要提到三角测距原理:通过同一物点在两个视角投影之间的三角关系即可确定物体的深度。人眼可以由大脑指挥实现自动对焦目标的功能,即使目标可能不那么容易分辨。例如一面白墙(如图6所示),人眼可以借助自己的先验知识或者借助精准控制的眼球转动推算出目标的大致距离。因为在看清不同距离的物体时,人的双眼之间的视角是不同的,对应到相机就是一个相机需要在另一个相机中匹配到同一物点才能判断其具体的位置。而相机却没有人眼那么“智能”,当拍摄一面白墙时,对于左视角中A点,右相机无法从其拍摄的图中去匹配同一个位置。而如果我们能够对目标物体添加“标识码”,即添加无规则的散斑图案,那么右相机就可以根据物体表面所特有的散斑特征判断A点所对应的点到底在哪里。
图6 散斑结构光为场景中的每一点打上了独一无二的“标签”
那么如何通过散斑获取匹配点呢?我们可以直接对两张散斑图像进行逐像素点的滑动窗口匹配来获得它们之间的一一对应关系。如下图所示,对于左图中的一个像素点(左图中红色方框中心),在右图中从左到右用一个同尺寸局部窗口内的像素和它计算相似程度,相似度的度量有很多种方法,常用的相关函数有零均值归一化互相关函数(ZNCC)、零均值归一化差平方和函数(ZNSSD)等。除了匹配代价函数的选取,本文还介绍了典型的成本聚合策略,局部匹配,子全局匹配和全局匹配算法。此外还对三维重建过程中潜在的一些问题进行了分析和讨论,例如:如何获取亚像素匹配精度、如何选取算法匹配窗口大小等。
图7 基于零均值归一化互相关函数滑动窗口匹配过程
除了核心算法外,本文还介绍了结构光三维传感器的硬件组成及其关键器件——基于垂直腔面发射激光器(Vertical-Cavity Surface-Emitting Laser,VCSEL)的微型结构光投射器。通过在VCSEL的腔面上加工所需的散斑图案并通过衍射光学元件对散斑图案进行复制实现全场散斑图案的投影,如图8所示。
图8 基于VCSEL的结构光三维传感器的硬件组成及其微型结构光投射器的基本原理
文章对三维传感技术在人脸识别、人机交互、场景建模等领域的典型应用做了深入的介绍,同时也指明了散斑结构光技术仍现存的一些问题:如何权衡匹配算法上全局唯一性与精度、如何突破“小型化、低成本与高精度之间的制约”、“如何真正实现基于3D数据的人脸识别”以及“如何面对来自于ToF等其它技术的挑战”等。目前散斑结构光三维传感在人脸识别身份认证这一领域得到了广泛的应用。然而其所获得的三维数据仅仅被用来进行“活体检测”,即判断人脸采集设备捕捉到的图像是否来源于真人活体,这与我们所料想的“真3D人脸识别”相差甚远。此外,结构光三维传感技术在科学研究与产业应用之间还存在着“割裂”与“鸿沟”:在学术界,结构光三维传感技术一直向着“更高、更快、更强”的目标不懈努力;而产业界却不断呼唤着“更简单、更小巧、更便宜”的三维传感技术。现阶段,结构光三维传感技术的发展正朝着实时化(real-time)、全方位(full-perspectives)、普适性(universality)、智能化(intelligent)、超高速(Super-fast)、高精度(high-precision)等方向迈进。
图9 人体实时彩色三维成像
图10 气枪子弹出膛10,000Hz三维成像
最后作者在结论中构想出的3D时代是这样一番景象:包含有高精度三维人脸信息的“三维身份证”,无处不在的真三维人脸识别与身份验证,随时随地掏出手机一拍就能获取场景的高精度三维照片,对着物体扫一圈就能对其进行三维建模,这些3D照片与模型可以通过裸眼3D技术呈现在我们的眼前,并与我们的环境融为一体,可通过我们的肢体自由地去操控、展示与交互……我们距离这个目标,似乎还有不小的距离。
可以预见的未来,3D传感技术在大众消费电子领域将面临两种可能性:一方面技术屈服于大众审美,即手机厂商着力去解决饱受诟病的“刘海屏”问题,利用更小巧更易于集成的ToF传感器。但是“真3D”将可能会离我们越来越远;另一种可能性是大众需求受技术所引导,结构光三维传感技术在精度上得到进一步突破的同时仍然能够保持低成本甚至可以做的更加小型化,那么3D的时代可能真的就会即将到来。
图11 未来真正的“3D世界”