News center

新闻中心
光鉴科技发布《ToF深度相机技术白皮书》完整版 | 北极光·Family

2020/4/24

北极光投资企业「光鉴科技」于近日发布了《ToF深度相机技术白皮书》,主要分析了ToF深度相机的基本工作原理和不同技术路径的优势和挑战,并进一步比较了ToF与双目和结构光技术方案的优劣势。报告认为,d-ToF产业成熟需要很长一段过程。在此过程中,i-ToF还有很大的潜力可以挖掘,正在先一步抢占3D行业市场份额;而随着工艺和产业链的成熟,d-ToF将逐步从高端消费电子往下渗透。以下是白皮书全文,与你分享:

 

摘要:现行专业级或消费级的3D相机所采用的三角法(Triangulation)和飞时法(Time-of-Flight,ToF),现因苹果公司最新版iPad Pro的出现--搭载了d-ToF技术的深度相机--已然为3D视觉在消费场景的应用推动了新的机会。为了让读者更深入地了解ToF技术,我们根据行业现状、学术界的最新成果,编写了此版《ToF深度相机技术白皮书》。全文可下载链接:

http://www.deptrum.com/data/Deptrum_ToF_White_Paper.pdf

 

1

3D视觉介绍

3D视觉技术能够获取现实三维场景完整的几何信息,利用带有深度信息的图像来实现对于场景的精准的数字化,从而实现高精度的识别、定位、重建、场景理解等机器视觉的关键功能。以2010年的Kinect和2017年的iPhoneX的发布为标志,3D视觉技术从传统意义上只应用于专业领域的高端技术变成了消费级产品。

 

Figure 1‑1 二维空间到三维空间示意图

 

现行专业级或者消费级的3D相机采用两种主流技术,三角法(Triangulation)和飞时法(Time-of-Flight, ToF)[1]。采用三角法的3D视觉技术包括双目技术和结构光技术,基本原理采用三角几何视差来获得目标到相机的距离信息。这种方法在近距离有着很高的精度,但是误差会随着距离增大而快速变大。ToF技术测量相机是指主动投射出的光束经过目标表面反射后被相机接收这个过程的来回的飞行时间,基于光速即可获得目标到相机的距离。ToF技术在不同距离的误差相对三角法更稳定,在远距离有着更好的精度[2]。

 

在本文中,我们将介绍消费级的3D视觉技术的主要技术路径。针对ToF技术,我们将介绍其主要实现方法的具体工作原理,各自的优劣势以及技术挑战。根据行业的现状,我们将结合学术界的最新成果,介绍解决当前ToF相机痛点的一些方法。最后,我们也将结合现下行业需求,介绍ToF的一些重要的应用场景。

 

2

3D视觉方案介绍

常见的3D视觉方案主要包括双目、结构光和ToF三个技术方向。这三种方法各有优劣。虽然本文主要介绍的是ToF技术,本章节将简要地介绍和比较其他两种技术方案,帮助读者全面地了解3D视觉技术方案。

 

2.1  双目技术

 

双目深度重建利用的是三角测距法计算被测物体到相机的距离。具体的说,就是从两个相机观察同一物体,被观测物体在两个相机中拍摄到的图像中的位置会有一定位置差。正如将一只手指放在鼻尖前,左右眼看到的手指位置会有一个错位的效果。这个位置差称为视差,被摄物离相机越近,视差就越大;距离越远,视差就越小。在已知两个相机间距等相对位置关系的情况下,即可通过相似三角形的原理计算出被摄物到相机的距离。

 

Figure 2‑1 双目技术示意图

 

双目深度重建的原理虽然简单,但在实际使用中遇到了两个挑战:计算量大,依赖被摄物的纹理及环境光照。下面对这两个挑战分别展开介绍。

 

要计算一幅图中每个像素的深度值,我们需要得到每个像素在两幅图中的一一对应关系。这个关系的建立通常是采用块匹配(block matching)的方法。具体的说,在一幅图中,以一个像素为中心,选取一个固定大小的窗口,在另一幅图中寻找最相似的窗口,从而得到该像素在另一幅图中的对应像素。块匹配算法有很高的计算复杂度,其计算量正比于O(NMWHD),其中N, M为图像的行数和列数,W, H为匹配窗口的宽和高,D为匹配寻找最相似像素的范围。为了达到更好的效果,会采用一些更复杂的改进算法(如Semi-Global Block Matching, SGBM),这就更进一步提高了计算量和复杂度。鉴于此原因,业界常见的方法是将算法固化到特制的ASIC芯片中,从而解决计算量的大的问题,但这一增加了额外的硬件成本和迭代变化周期。

 

双目深度重建的另一大挑战是依赖于被拍摄物体的表面纹理和环境光照。利用双目原理重建表面没有任何纹理的物体时,例如拍摄一面白墙,会遇到无法找到匹配的对应像素的问题。另一方面,当拍摄环境的光照很弱的情况下,例如黑灯环境下,匹配也会遇到很大的挑战。结构光技术为解决这两个问题提供了新的思路。

 

2.2 结构光技术

 

结构光方案是一种主动双目视觉技术。每个结构光相机包括两个基本组件:一个红外激光投射端和一个红外摄像头。其基本思路是将已知的结构化图案投影到被观测物体上,这些结构化图案将根据物体的几何形状和拍摄距离而发生相应的形变。红外摄像头从另一个角度进行观察,通过分析观测图案与原始图案之间发生的形变,可以得到图案上各像素的视差,再根据相机的内外参恢复出深度。

Figure 2‑2 结构光技术示意图[1]

 

结构光方案可以看成双目方案的一种特例。已知的投射端结构化图案和红外摄像头拍摄到的图案可视为左右双目的观测。结构光重建算法和双目重建算法采用了相似的思想,也面临着类似的挑战,主要包括高计算量和深度突变处的数据缺失。

 

为解决这两方面的挑战,光鉴创新地研发了一套高效软核重建算法,将计算量降低了两个数量级,只需一颗普通的ARM嵌入式处理器即可完成高精度深度重建。与此同时,利用多传感融合与深度学习,该算法大幅提升了常见的深度图缺失问题。

 

和标准的双目方案相比,结构光方案更为鲁棒,这得益于结构光方案采用的主动光源和投射的结构化图案。具体的说,投射端发出的红外激光照亮了被拍摄物体,这使得拍摄端无需依赖环境光源即可获得亮度稳定的图像输入;另一方面,投射的结构化图案为被拍摄物体增加了表面纹理,这使得拍摄表面没有任何图案的物体也能精准地重建出深度。

 

2.3  双目、结构光及ToF技术比较

 

为了更直观的比较双目、结构光和ToF技术路径的优劣势,我们汇总了各个每个方案的关键技术参数的比较。其中,i-ToF和d-ToF技术将在之后的章节中具体介绍。

 

3

ToF基本原理

相比双目视觉和结构光方案,ToF 的方案实现起来会相对简单,主要包括发射端和接收端,ToF 传感器给到光源驱动芯片调制信号,调制信号控制激光器发出高频调制的近红外光,遇到物体漫反射后,接收端通过发射光与接收光的相位差或时间差来计算深度信息。现大部分ToF 传感器采用背照式CMOS 工艺技术,该工艺大幅度提高了感光面积,提升了光子收集率和测距的速度,响应时间能够达到ns级,在远距离情况下也能保证高精度。

 

3.1 i-ToF原理

 

i-ToF,即indirect ToF,通过传感器在不同时间窗口采集到能量值的比例关系,解析出信号相位,间接测量发射信号和接收信号的时间差,进而得到深度。i-ToF 根据调制方式的不同,可分为两种:连续波调制(CW-iToF)和脉冲调制(PL-iToF),分别发射连续的正弦信号和重复的脉冲信号;前者是通过解析正弦信号相位解析深度,而后者是解析脉冲信号相位来解析深度。

 

3.1.1  连续波调制(CW-iToF )

 

通常采用正弦波调制方式,接收和发射端正弦波的相位偏移和物体距离摄像头的距离成正比, 通过相位偏移来测量距离

 

相位偏移 (φ)和 深度(D) 是由积分能量值从上述公式C1、C2、C3、C4解析得到,这几个积分能量值,是四个不同相位延迟的接收窗口采集到的能量,分别对应于在相位采样点0°、90°、180°、270°采样,即:

 

其中A为接收到正弦信号的幅度。

 

精度方面,CW-iToF精度主要受制于随机噪声和量化噪声,前者与接收光信号信噪比(Signal to Noise Ratio, SNR)成反比,后者与正弦波调制频率成反比。因此,为了提升精度,CW-iToF一般采用大功率短积分时间采样,提高接受光信号SNR;同时提高调制频率以抑制量化噪声。

 

量程方面,CW-iToF可解析的相位范围为[0~2