2.3 3D显示中的视觉线索
3D显示采用的基本视觉功能主要是双目视差、辐辏和视错觉。其中,双目视差、辐辏等双眼深度线索是实现3D显示的关键。
2.3.1 3D空间再现的基本要素
在3D显示中,为了再现接近自然的客观空间,显示技术必须满足图2-34所示的视觉功能的空间再现要素,包括检出物体绝对距离的要素、检出物体间相对距离的要素、感知空间范围的要素。
图2-34 视觉功能的空间再现要素
1.检出物体绝对距离的要素
焦点调节①:因为眼球接合部的焦点深度特性,要求可在模糊状态检出数米以内的物体距离,可在近距离主动进行焦点调节的显示信息量。在显示分辨率上,需要更高精细度的图像。
辐辏②:从注视物体时的双眼运动到数十米之间的距离检出,因为与要素①联动,近距离显示时两者的平衡成为问题。根据要素①②,近距离安定观察的距离为40~70cm。
视网膜上的像③:与要素①密切相关,根据物体大小、明暗与颜色的对比,清晰度等图像信息,能感觉到远的、大范围的距离。对物体大小施加规则性的“透视图法”,是表现平面图像景深的代表手法。
2.检出物体间相对距离的要素
运动视差④:移动观察位置获取物体间相互位置关系(相互重叠或移动速度)的变化,可以感觉到数百米范围的前后位置关系。
双目视差⑤:左右眼分别看到的物体像的偏差(视差),以注视物体为参照物,可以精确地分辨出前后位置关系。双目视差(ΔD:(AR−AL)/(BR−BL))感知相对距离。不过,由于双目视差可检出的最大偏差量(融像范围)辨别范围的限制,以及与要素①~④的关系,可以有效辨别100m以内的物体前后关系。
要素④和⑤存在继时和同时的差,横向移动时状态一致。
3.感知空间范围的要素
视野⑥:根据视网膜位置上信息的差异及产生主观坐标轴方向诱导效果的视觉信息提示,可以再现与普通生活状态一样的空间不受限制的状态,即宽视野、大画面显示。
眼球和头部运动特性⑦:积极探索信息时发生的眼球和头部运动不受制约的高精细度和大画面显示效果。
要素⑥和⑦都要求大画面显示,加上视网膜静态特性,要求能够提供信息探索动态特性充足的双方向系统的信息提示。单眼深度线索伴随着眼球运动EM、头部运动HM和姿势变动BM。
对应图1-5所示的3D显示技术分类,3D显示空间再现方式分为视错觉3D显示、2视点及多视点3D显示、真三维显示。视错觉3D显示是在一幅平面图像上使用构图、大画面、空中像等方式再现景深方向的空间,是一幅景深图像,要素③④⑥的景深效果明显。2视点及多视点3D显示是通过两幅及两幅以上的视差图像再现以显示屏幕为中心,前后呈一定景深的空间,包括眼镜式、光栅式等3D显示方式。仅以要素⑤即可形成立体效果,如果要获得更加自然的显示效果,需要增加与要素⑥相关的大画面化,与要素②相关的安定空间显示条件。真三维显示是指超多视点3D显示及通过空间扫描和物体波面再现等方式形成的空间像,可以再现绝大部分的视觉空间要素。具体的3D显示方式包括光场3D、体3D、全息3D等。在2视点及多视点3D显示的基础上,增加要素①②④⑦,可以再现更自然的空间。
2.3.2 双目视差式3D显示
由于两眼观察物体的角度不同,两眼所摄取的像在大小和形状方面必然有所差异。这种两眼视网膜上的成像大同小异,是形成立体视觉的基础。多视点3D显示技术的基础是双眼立体视,是基于双目视差与辐辏再现的特性化设计构造。
1.视差与视差角
左右视差图像中的同源像点,在竖直方向的差异称为垂直视差,在水平方向的差异称为水平视差。水平视差是实现3D显示的主要因素,3D显示中所讲的视差一般指水平视差。根据左右视差图像中同源像点视差大小的不同,视差分为正视差、负视差和零视差。
如图2-35所示,当左右眼的视差图像所成像点在显示屏上重合时,观看者感知该再现物点位于显示屏上,无立体效果。这时的左右视差大小为零,称为零视差,这种视差效应也叫通常视。当左右眼视差图像的左右位置关系与左右眼的位置关系相同时,视差角为正,称为正视差,这种视差效应也叫平行视。当左右眼视差图像的左右位置关系与左右眼的位置关系相反时,视差角为负,称为负视差,这种视差效应也叫交叉视。3D显示时,正视差和负视差再现的物点分别位于显示屏的后方和前方,形成立体视觉。
图2-35 不同视差大小的视差效应
3D显示的图像物体越近,双目视差越大,双眼辐辏角越大。图像物体越远,双目视差越小,双眼辐辏角越小。如图2-35所示,把左右眼同时聚焦在显示屏相同点时的辐辏角定义为θ0,相应的视差角为0,即零视差。如果正视差图像对应的辐辏角θ3=1°,则对应的视差角为1°(θ3−θ0)。如果负视差图像对应的辐辏角θ1=1°或θ2=2°,则对应的视差角为−1°(θ0−θ1)或者−2°(θ0−θ2)。
2.双目视差与辐辏
观看现实世界中扑面而来的物体时,与辐辏联动的是晶状体变厚的焦点调节,以减轻模糊,即辐辏距离与焦点调节距离是一致的,如图2-36(a)所示。观看普通3D显示时,双眼一直聚焦在显示屏上,晶状体的大小不变,没有焦点调节,只存在辐辏运动,如图2-36(b)所示。
图2-36 辐辏与焦点调节
当前大部分3D显示终端只实现了立体显示所需的双目视差深度线索,由于显示器件空间角度分辨率的限制,无法实现人眼单目聚焦深度线索,人眼在观看基于双目视差线索的3D显示时,存在双眼辐辏与单眼焦点不协调的问题,这种辐辏与焦点调节不协调是造成立体视觉疲劳的主要原因。如图2-36(b)所示双目视差式3D显示终端,图像显示在固定位置屏幕上,所以单眼的焦点调节距离(焦距)是固定的,此时当视线聚焦于显示面上时,看到清晰图像。而当人眼观察显示的3D物体时,双眼的辐辏角汇聚于3D物体的虚拟位置,人眼单目聚焦的平面与双眼汇聚的平面不在同一位置,发生立体视觉冲突。
3.实现双目视差方式的3D显示
基于正视差的3D显示,相应的立体视觉原理如图2-37所示。以左右双眼之间的连线为X轴,双眼中点为原点建立空间坐标系OXYZ。L和R分别代表左眼和右眼的位置坐标,P为物体空间位置坐标,PL和PR分别表示左右眼在屏幕上看到的点P的投影位置,D为人眼到屏幕的观看距离,e为双眼瞳距。根据三角形相似原理,可求得双目视差:
图2-37 正视差3D显示的几何模型
根据式(2-17),通过设置双目视差H及观看距离D,可以获取深度信息zP,从而控制立体深度感。其中,双目视差H由拍摄系统决定,观看距离D由显示系统决定。
如图2-38所示,显示屏上同时显示稍有差异的右眼视差图像和左眼视差图像,如果左眼聚焦左边的视差图像,右眼聚焦右边的视差图像,则两眼呈平行视,形成正视差效果,显示的图像呈“入屏”效果。如果左眼聚焦右边的视差图像,右眼聚焦左边的视差图像,则两眼呈交叉视,形成负视差效果,显示的图像呈“出屏”效果。
图2-38 基于双目视差的3D显示
双目视差式3D显示,左右眼视差图像的差异不能太大。差异过大,两眼合像困难,甚至不能合像,最终只能放弃双眼单视。一般,图像差异小于0.25%是感觉不到的,对双眼单视的合像过程也不会产生任何影响。由于立体视觉是高级的视觉功能,除两眼图像之间的几何差异起着最基本的作用外,视觉的高级神经和精神活动也有很大作用。例如,两眼像差为5%,本来是难以合像的,但可利用视觉知觉过程中的可塑性予以补偿,仍可形成双眼视觉。两眼像差超过5%,会使双眼视觉发生困难,或者根本丧失。
2.3.3 单目聚焦式3D显示
只有双目视差深度线索的3D显示,无法有效利用焦点调节深度线索,因为眼睛一直盯着屏幕,眼睛注视的绝对距离不变。在双目视差深度线索的基础上,采用焦点调节深度线索,才能看到更自然的3D显示效果。单目聚焦式3D显示可以提供较为全面、接近准确的深度线索,包括光场3D、体3D和全息3D等显示技术。
1.单目聚焦3D显示的意义
观看真实物体和观看3D显示时的视网膜成像效果不同。如图2-39所示,观看真实物体时,观测点两侧的图像是模糊的,眼睛聚焦在物体上;观看3D显示的虚拟物体时,观测点及其两侧的图像同样清晰。这说明3D屏幕所发出的光线,并没有因为各个虚拟对象的深度不同,发出具有差异的光线,而是和平面图像一样,相互间基本上是一致的。这样,眼睛的焦点调节与各个虚拟对象的深度不匹配,产生调节辐辏冲突,与人的正常生理规律相违背,带来视觉疲劳和不适感。
图2-39 观看真实物体和观看3D显示时的视网膜成像效果
实现具有单目聚焦功能的3D显示,就是要让3D显示设备渲染出焦点调节深度线索,创造出场景中相应的深度知觉,近似人眼感知真实空间深度的方式。所以,单目聚焦式3D显示也叫真三维显示,可以真实再现物理三维空间。对于所显示物体的每一个物点(x,y,z),在三维空间具有对应的像点(x',y',z'),该对应像点称为体素(Voxel)。即使一个很小、很简单的物体也都包含有大量的数据信息,这对数据存储和处理速度提出很高的要求。
真三维显示通过重建出三维物体表面的体素朝各个方向发出的光线来重建空间三维场景,同一体素发出的光线具有很小的角度间隔,能给周围的所有观察者很好的图像深度暗示,能让人眼聚焦到光线空间的不同距离,不同位置的观察者不需要借助任何助视工具就可以看到相应位置的三维图像,人眼的焦点调节距离与辐辏距离保持一致。
2.单目聚焦功能的实现方式
在真三维显示系统中,对应每种成像空间的构造方式,有很多种体素生成方式。实现单目聚焦功能的方式有实物散光点连续聚焦方式、虚拟散光点连续聚焦方式和密集几何光线会聚方式。
实物散光点连续聚焦方式就是体3D显示技术。体3D显示技术大体可分为扫描体3D显示和固态体3D显示两种。扫描体3D显示是在快速移动的镂空或半透明的介质上投射亮点或图像,快速移动的介质把投射过来的光束散射开,在成像空间内部形成散光点,利用视觉暂留效应生成3D场景。固态体3D显示的介质由n个光衰减屏层叠而成,控制光衰减屏的像素透明度。某一时刻的某个像素,其中(n−1)个光衰减屏是透明的,剩下的1个屏是不透明的,呈白色的漫反射状态,形成散光点。在这n个屏上快速切换,显示3D物体截面,从而产生纵深感。体3D显示的单目聚焦点是在显示屏幕上真实存在的散光点。
虚拟散光点连续聚焦方式就是全息3D显示的波前聚焦方式。全息3D显示的基本原理是利用光波干涉法同时记录原物光波的振幅与相位。由于全息再现像光波保留了原物光波的全部振幅与相位的信息,所以再现像与原物有着完全相同的三维特性。观看全息像时会得到与观看原物时完全相同的视觉效果,包括各种位置视差。
密集几何光线会聚方式就是光场3D显示技术。经典的光场3D显示是从(x,y)平面发出的几何光线经过(u,v)平面的角度调节,重建空间三维场景。如果(x,y)平面发出的几何光线足够密集,经过(u,v)平面角度调节后,空间物点进入单只眼睛的视差图像(视点)数超过2个,就可以形成单目聚焦的功能。几何光线的不同会聚位置可以实现在不同景深位置的聚焦功能。
2.3.4 2D视图转3D显示
2D视图转3D显示是通过数字技术对2D图像进行后期处理,制作出左眼及右眼用视差图像。运用大量的深度线索,在原来只有XY关系的平面图上增加一个Z轴的深度,以增加景深。
1.2D转3D的基本过程
2D转3D的基本过程如下:首先,把2D图像进行分割,将图像划分为与其中含有的真实世界的物体或区域有强相关性的组成部分;然后,从分割后的2D图像中挖掘深度线索并从中提取深度;最后,根据深度赋值生成3D视差图(立体图像对)。
图像分割算法一般基于亮度值不连续性和相似性的两个基本特征之一:分割得越细致,通过后期的深度提取与深度赋值产生的3D空间就越有深度感。基于深度提取算法所依赖的深度线索,可以将深度提取算法分为12类。表2-1给出了深度提取算法参数。
表2-1 深度提取算法参数
从深度图进行3D图合成的过程,就是从深度图到立体图像对生成的过程,实际上是从原始图像结合深度图生成左眼图像与右眼图像。而左右眼图像是通过对分割后物体的平移操作获得的。最初,将原始的2D图像作为一个眼的图像,再平移得到另一个眼的图像。现在,原始的2D素材被当作介于左右图像之间的中间图像,左右眼的图像都是经过其平移得到的。这样减小了因为计算造成的图像变形。
在得到3D图像对后,根据3D显示效果要对前面的步骤不断地进行微调,以达到最好的3D显示效果。
2.2D转3D的深度线索
在2D转3D的深度提取算法中,单目深度技术比较困难,有时仅有一幅图像得到的只是深度关系,而不是实际的深度。目前的主流算法是利用双目深度线索,结合多幅图像在空间维度与时间维度上的相关性来获取场景的深度信息。特定环境下采用单目深度技术。
双目视差 通过立体匹配的方法在两幅图像中寻找对应的像素,计算双目视差。视差越大,场景越近;视差越小,场景越远。最后将双目视觉转换为场景深度。常用的立体匹配算法有基于局部窗口相关、基于图像特征点匹配和基于全局优化的方法。基于局部窗口相关的方法得到一幅密集视差图;基于图像特征点匹配的方法得到一幅稀疏视差图;基于全局优化的方法利用平滑约束,最小化一个能量函数来得到最佳的双目视差值。
运动视差 相机与场景间的相对运动提供的运动视差是时间维度上的视差,常用运动场来表示。运动场是场景与相机间相对运动产生的图像点的二维速度矢量。运动场估计常用算法包括基于光流和基于特征的方法。光流是指当观察者和场景目标之间有相对运动时,图像亮度模式的表现运动。基于光流方法得到的是密集深度图,基于特征方法得到的是稀疏深度图。
散焦 在透镜系统中,恰好对焦的物体能够清晰地成像,而其他距离上的物体点就会出现不同程度的散焦现象,表现为以一点为中心的圆形光斑,光斑的半径越大说明散焦的程度越深。通过相机标定可以得到相机参数,只要调整焦距设置,计算出各个散焦物体对应的光斑半径,就能够得到物体深度。在只有一幅图像的情况下,一种散焦模糊估计的方法是利用高斯滤波器的二阶导数对输入图像进行滤波,由滤波结果计算得到散焦半径,结合相机标定得到的相机参数就能计算出密集深度图。
聚焦 在拍摄一个场景过程中,固定焦平面,不断改变相机与场景的距离,得到一系列不同聚焦水平的图像。记录下每个物体点在最佳聚焦时对应场景相对参平面移动的距离,就能计算出每个物体点的深度,从而得到密集深度图。
轮廓 物体轮廓是将物体从背景中分离出来的周线。这种方法需要从不同视点对同一场景拍摄多幅图像,通过背景剪影的方法,从背景中分离出目标物体,然后利用相机标定时得到的相机参数,将目标物体投影回三维空间。多幅图像向后投影的结果就形成了目标物体在实际空间中的3D模型。
几何透视 基于几何透视关系恢复深度的方法首先对输入图像应用边缘检测,定位主要的直线,找出这些直线的交点,将交点密度最大区域的中点作为灭点,灭点周围出现的主要直线作为灭线。然后在相邻灭线之间赋值梯度平面,每一个梯度平面对应一层深度,靠近灭点的梯度平面被赋予较大的深度,梯度平面的密度也较大。沿着灭线往灭点方向,场景深度逐渐加深。
大气散射 大气散射的应用性不强,只能处理特定场景的图像,在计算机视觉领域的研究并不多。
阴影 图像中物体表面阴影的逐次变化包含了物体的形状信息。阴影恢复形状方法就是利用表面几何与图像亮度之间的关系,从亮度图像中恢复出物体三维形状的一种技术。人脑能够非常好地利用阴影及一般情况下明暗度提供的线索。检测到的阴影不仅明确地指示了隐藏边缘的位置和与其邻近的表面的可能方向,而且一般的敏感度性质对于导出深度信息有着重要的价值。
图案纹理 实际大小相同的纹理元在图像中反映为近大远小。通过比较一块纹理区域中不同纹理元的位置和方向,可以估计出这些纹理元的相对位置关系,进而得到它们的深度。纹理恢复形状的方法致力于根据表面法线得出纹理表面的方向。
遮挡 被遮挡的物体离观察者更远一些。一些已有算法通过分割物体,寻找各个分割物体之间的遮挡关系,区别出物体层次,最终得到相对深度图。
统计模式 基于统计模式的2D转3D技术,通过机器学习的方法,将事先准备好的大量有代表性的训练图像和它们对应的标准深度图输入系统进行有监督的学习,使系统能对实际待处理的输入图像进行准确分类,找到最适合的深度赋值方法。
3.人工智能2D转3D技术
将计算机视觉和人工智能技术用于3D显示内容制作,实现单视点和多视点重建更多视点的方法逐渐替代了直接拍摄。相比通过计算机软件人工辅助方式实现2D转3D,人工智能2D转3D技术具有高效、精确等优点。
在传统的2D转3D技术中,画面生成的立体效果精确度取决于分割层次。通过精选数据集和优化算法,人工智能2D转3D技术能自动将画面里的每一个物体、元素都精确分割、绘制,最大限度地还原画面的真实立体感。在图2-40中,左侧原图用传统手工转3D方式绘制深度,很难看到左上角的半张人脸。而人工智能系统在对场景进行三维重建时,能清晰勾勒出左上角的人脸,通过对原图进行调色观察,可看到左上角的人脸。
图2-40 人工智能系统高于人眼识别能力
人工智能2D转3D内容制作,现有效果主要采用人工制作的样本数据对2D转3D内容制作模型进行训练。通过增加样本数据所包含场景,增加数据量,可以有效地提升模型适用范围。提升模型转换效果,主要采用构建多级时空视差提取神经网络,通过样本数据训练神经网络参数,取得多级时空2D转3D制作模型。
人工智能自动2D转3D内容制作技术支持常见2D内容3D转制后达到50视点,实现更为平滑的视点变化,观影效果更加逼真。其解决方式主要采用构建对抗判别深度匹配模型并加入新型针对局部错误区域进行优化判别损失函数,由多视点图像,通过对抗判别深度匹配模型,提取匹配后多视点图像视差信息,进行三维重建模型和重建更多视点。
在传统影视3D内容制作中,采用人工方式对图像中对象的深度信息进行设置,给定对象合理的相对深度位置,获取对应原始2D图像内容的视差图像,经过立体渲染,获取3D图像。在立体渲染技术中,视差图的质量直接影响着渲染后3D图像效果,而视差角度数量也直接对应着转换后3D图像空间感。如图2-41所示,采用左右2视点进行三维重建,重建后随着立体感增大,会出现重影现象,导致空间感受限。解决以上问题,可以通过将已有视点图像进行立体匹配,并结合针对局部错误区域的损失判别方式,提取更多视点、更准确视差信息的方式,转制3D显示内容。
图2-41 双眼视差观看限制