时间:2024-07-28
徐崇斌 周明全 沈俊辰 骆岩林 武仲科
体可视化已经成为医学影像、生物可视化、地质探测和科学计算可视化等领域的一个重要工具,与传统可视化技术相比,体可视化更有助于用户直观、可靠地理解被测数据中包含的内部几何结构和特征信息[1]。目前,大部分针对体可视化的研究集中在线下和实时绘制算法,而且随着 GPU的推陈出新,这些算法发展尤为迅速。然而,单单靠提高绘制性能本身并不能使用户对体数据有更为直观的理解[2]。如何提供有效的体数据交互手段,使用户更方便地探索和分析数据,已成为当前体可视化的一个研究热点[3]。
文献[4]采用一种基于专家库的医学可视化用户界面,一旦用户选择了一个感兴趣区域(Region-Of-Interest, ROI),系统会根据模糊逻辑对不同的绘制函数进行排序,并自动给出用户最可能想要的可视化结果,不需要用户去操作复杂的菜单或工具栏。文献[5]设计了一种虚拟魔术灯(virtual magic lantern)的交互隐喻,采用Wanda作为空间输入设备,将虚拟灯光照射到的区域(通常为感兴趣区域)用另一种传递函数进行绘制,通过改变光照区域的传递函数参数可以改变显示的体数据类别和绘制风格,从而实现简洁易用的体探测功能。文献[6]设计了一种手柄隐喻用于实现虚拟环境的基本操作,先用虚拟手柄穿过并绑定虚拟现实环境下的 3维物体,然后通过Kinect传感器识别用户双手在3D空间的手势和移动,从而驱动虚拟手柄带动3维物体进行旋转、平移和缩放操作。文献[7]通过手势事件模拟鼠标/笔对 GUI的控制和操作,并在 Buxton状态模型[8]的基础上提出基于视觉手势交互的状态转移模型。
本文给出一种基于Leap Motion传感器的3维用户界面-LeVisall,借助Leap Motion, LeVisall交互技术适用于在大屏幕空间体数据的直观操作,如6DOF 交互操作(3DOF Rotation, 3DOF Translation)及体切割和层探视等数据分析。首先在没有预先告知任何指定手势的情况下,通过形成性实验(formative study)观察用户如何使用手势远距离操控现实环境中的物体,在其基础上设计出一套易于理解的体交互手势。然后,建立 Leap Motion传感器工作区域和体数据计算空间之间的映射,将实时解算的手运动数据和矢量数据相结合,完成一个连续数据流的体交互原型系统。最后通过用户实验对原型系统进行评估。实验结果表明,和传统2D交互手段相比,LeVisall的用户体验和表现更为自然、直观和高效。
2.1.1 交互模式 为了获得用户表达3D体交互最自然的方式,在最开始阶段进行简单的形成性实验。由实验设计者指定若干个体交互任务,让用户以自己认为最直观的方式用单手或者双手完成交互任务。根据形成性实验的观察,为和潜在用户的操作行为保持一致,将LeVisall的交互模式大致分为导航、编辑和探测。导航指平移、旋转和缩放体数据模型到指定姿态;编辑包括剖切体数据,浏览各剖切断面信息;探测指用虚拟滤镜或体探测工具对感兴趣区域进行层探视。
LeVisall默认是导航模式,用户在Leap Motion传感器的工作区域自由地转动手腕,驱动模型做 6个自由度运动。当模型达到用户满意姿态时,可以通过停止手势锁定当前姿态并通过切换手势进入其他模式。编辑模式,用户将手势映射成不同的切割工具,对体数据进行操作,包括平面切割和超二次曲面切割。在此阶段可通过简单手势切换回导航模式,或者用 RESET手势对编辑操作清零,恢复到刚进入编辑模式时的状态。用切割方法获得感兴趣区域后,用户往往需要对该区域内部进一步探索。如医学体数据在绘制时出现遮挡问题,可用滤镜等工具对不同组织进行分层剥离以达到最符合用户需求的可视化效果。探测模式,允许用户通过本文设计的手势进行层探视和基于超二次曲面的体探测。
2.1.2 手势设计 LeVisall可以识别3种基本的手形(hand pose),分别命名为指向(point)、张开(open)和握拳(fist),如图1所示。为了获得上述基本手势的与视点无关的稳定识别,本文先将实时得到的手部运动数据进行姿态归一化,利用掌心点坐标和掌心法矢改变作为坐标轴的平移偏量和旋转偏量,将归一化后的手势空间分布信息和已知的3种基本手形进行模式匹配和分类,从而确定当前哪个手形处于激活状态。
结合前面关于形成性试验的一系列结论,本文给出LeVisall在不同交互模式的手势(hand gesture)设计。如图2所示,每一种手势都由基本手形或基本手形的组合加上手部运动触发,而且在这些手势操作过程中,交互响应是连续实时地绘制在大屏幕上,给用户提供有效的视觉反馈。
LeVisall中手势包括以下几种:
(1)通用3维交互手势 对体数据的基本3维交互包括3DOF旋转、3DOF平移以及缩放。在导航模式,屏幕上的体数据和用户手掌的姿态、位置是直接镜像的,在探测模式交互工具和用户手掌之间也有同样的映射关系。进入导航状态后,采用张开手势,结合手腕和手肘的自由度在物理空间改变手掌的姿态和位置信息,经过姿态解算后映射到体数据;体数据的缩放主要是通过5个手指指尖向量和手掌向量之间的关系来实现,用户弯曲5个手指则触发缩小操作,反之则触发放大操作。
(2)层探视手势 为了实现体数据内部分层探视,设计直观换层手势,同时可应用于2维滤镜和3维体探测的局部分层显示。在基于层控制的滤镜交互中,用户使用指向手势,直接将食指指向屏幕,对体数据进行任意区域的分层显示,用魔术灯锥形光线隐喻,手指在垂直于屏幕的方向移动可以控制探视窗口大小。用户在进行滤镜操作时,食指对着屏幕顺时针旋转一圈则切换到下一层,如图 2(c)所示。
图1 LeVisall识别的3种基本手形及其在Leap Motion信息空间的可视化表达
图2 LeVisall中主要操作的手势设计
(3)平面切割手势 使手指和手掌基本在一个平面上,保持手指指尖向量和手掌法向的垂直,从而用手掌模拟3维空间的切平面,将手掌的位置和法向映射到虚拟空间中确定一张切平面。通过连续旋转手掌以及移动手掌的位置,使得虚拟空间中的切平面穿越体数据的任意部分,用户可以对体数据进行非常直观、自然的切割操作,如图2(d)所示。
(4)超二次曲面切割手势 LeVisall中用超二次曲面的圆角实体交互工具共有3种,分别是球体、立方体和圆柱体柱体。用户采用指向手势,在空中简单比划出逆时针的圆圈,如图 2(f)所示,系统识别后在不同的超二次曲面实体中切换,并实时在屏幕上绘制出来,最后通过握拳手势完成交互工具的选择,如图 2(e)所示。确认交互工具形状后,超二次曲面的交互手势和基本3维交互中体数据的手势设计是一样的。
2.1.3 状态转移模型 在人机交互领域,由于交互技术对交互设备依赖程度相当高,如何对交互设备进行抽象成为用户界面设计的重要需求[8]。一般普遍采用的方法是设计输入设备的状态模型,虽然输入设备谱系驳杂,但可以归类成极少数几个类别,利用状态转换模型可以从这些输入设备的行为中抽象出简单而重要的元素[9]。
本文利用Leap Motion传感器作为输入设备,通过手形变换、手掌移动和手掌形状变换对体数据和交互工具进行控制。LeVisall输入方式有别于鼠标和多点触控的 2D输入,也有别于基于静止手形识别的离散输入,是基于手掌隐喻的物理空间中的连续3维交互,本文参照文献[7]提出的状态转移模型,设计适用于3维空间体交互的状态转移模型,如图3所示。
在体交互过程中,根据不同探索需求,用户需要在不同状态间进行实时切换。本文设计基于体交互流程的切换手势,按照交互流程正反两个方向进行状态切换,如图2(h)所示。另外,为了更好地观察体数据内部切面信息,让用户以最简便的方式切换至导航模式,LeVisall将指向和握拳手形到五指分开的变换过程识别为切换到导航模式的快捷手势。本文还将Leap Motion的倒金字塔工作区域划分成近场区域(near field region)和远场区域(far field region),以实现用户在交互过程中的空间映射和快捷编辑。定义Leap Motion识别范围内嵌最大立方体结构的区域为远场区域,如图4所示,用于方便地和 3D虚拟应用进行位置坐标映射。定义远场区域底面以下的识别区域为近场区域,如图4所示的倒金字塔区域,用于进行RESET, REDO等快捷编辑操作。
传统图形界面或者命令行界面主要采用的是键盘和鼠标输入的离散信息,而基于Leap Motion传感器的用户界面输入的是连续跟踪数据流,本小节将对支持2.1节所述交互机制的关键算法进行讨论。
2.2.1 噪声抑制技术 LeVisall处理的数据流是Leap Motion传感器实时返回的动作捕捉数据,包括手部各关键节点的空间轨迹、运动速度和指向矢量。除了基本手势识别外,这些信息还主要用于对体数据进行切割、探测操作。尽管理论上 Leap Motion传感器的轨迹跟踪精度达到亚毫米级,但由于是通过软件算法实现其高精度跟踪,从硬件角度来讲,Leap Motion仅采用两只分辨率为640×240的高帧率摄像头,在实际使用时仍会产生识别不稳定的现象。器件分辨率、热磁噪声、人手抖动[10]、视觉遮挡及数值解算的奇异值都可能引入噪声信号。本文采用文献[11]提出的自适应截止频率低通滤波方法,通过检测用户手掌掌心点速度实时改变低通滤波器的截止频率。式(1)给出上述自适应滤波的参数表达和演算。
图3 LeVisall的状态转移模型图
图4 基于识别区域划分的空间映射方法和快捷状态切换
其中 Di是从Leap Motion传感器返回坐标和向量值组成的高维向量,是经过自适应滤波后的向量,αi是[0,1]之间的平滑因子,可以由传感器数据更新间隔Ti和时间常数τi计算:
其中截止频率cif由式(4)确定,式中是的导数,代表手掌运动的线速度和角速度,本文取经验值mincf =1 Hz, β=0.5。
2.2.2 姿态解算和映射 LeVisall的交互隐喻是“双手就是交互工具”,用户手部姿态的变化将映射到体数据,从而驱动体数据在虚拟空间做6个自由度运动。空间姿态和位置解算是3维交互中非常重要的部分,准确的姿态解算能为下一个交互阶段提供可靠输入。LeVisall利用用户手部运动数据对体数据进行6个自由度交互映射,位置信息由掌心点归一化坐标可以得到,而手掌姿态则需要通过计算旋转矩阵获得。为了获得稳定的手掌姿态信息,本文采用基于四元数的姿态算法[12]。从手外科学关节活动度来看,用户手掌旋转角度非常有限,本文采用非同构的旋转控制大角度旋转。
以交互过程中 Leap Motion捕获到的第i帧数据为例(如图5所示),下面说明本文的空间姿态算法:
图5 手指、手掌矢量定义和空间姿态旋转示意图
步骤1 通过Leap Motion传感器获得当前跟踪的指尖向量 di1, di2, di3, di4, di5以及手掌法向量Ni,并计算指尖向量的和在向量 Ni的垂面上的投影分量,记为 Di;
步骤 2 通过向量 Ni和上一帧的手掌法向量Ni-1计算相应的旋转四元数 QNi;
步骤 3 按照 QNi计算相应的旋转矩阵 CNi,并通过 C 将上一帧向量 D 旋转至向量,若
Nii-1与 D 不重合则计算它们之间的旋转四元数 Q ;iDi
步骤4 将四元数 QDi左乘 QNi得到第 i - 1帧和第i帧的帧间四元数ΔQi,并通过式(6)更新当前四元数 Qi。在式(6)中,引入控制比例因子k,通过调节因子k改变帧间四元数iQΔ在计算iQ时的计算权重,从而实现非同构的3D旋转,本文根据LeVisall的操控需求取经验值 2.5k= ;
步骤 5 根据当前四元数 Qi= (q0, q1, q2, q3)来确定手掌姿态矩阵其中 q0为四元素 Qi的实部,q1,
基于上述设计的LeVisall交互技术实现了交互实例,采取的硬件系统包括一台DELL的T5400系列图形工作站,主要配置为双四核Xeon CPU 2.33 GHz, 8 G内存,NVIDIA 1.5 GB GeForce GTX570显卡,操作系统为Win7旗舰版;一台Leap Motion传感器;一台三菱GX-6400投影仪以及一块超宽金属银幕。采用 Leap公司提供的 SDK V1.0.9 for Windows获取 Leap Motion传感器返回的报文数据。通过对用户空间交互意图的理解,利用CUDA并行架构进行加速绘制,实现体数据交互式实时绘制。
为了验证LeVisall的交互效率和易用性,本文设计相应的用户试验,让被试者先后采用 Leap Motion交互与 2D鼠标交互两种方式完成交互任务。共计15个被试人员(6名女性)参与该次试验,年龄范围22~40岁。其中医学影像从业人员5名,均有3年以上医学影像工作站操作经验;2年以上3D游戏玩家5名,其中有2人有过Kinect游戏经历;从未接触过体数据和3维用户界面的被试人员5名。
研究人员要求每个被试者完成5个交互任务,如图6所示:(1)将3维空间中的体数据旋转到指定姿态并平移到指定位置;(2)对体数据的指定部位进行体切割,并旋转到指定角度观察;(3)选择体数据的某一部位,执行指定层的体探测;(4)通过滤镜观察体数据指定部位的不同层数据;(5)指定角度和位置的断面切割,并多角度展示相应断面信息。
被试者完成交互任务后给出停止手势并切换任务,此时系统计算并记录用户完成任务的时间(Time)和综合误差(ER),其评估算法如式(8):
其中,tSG,i表示当前任务的完成时刻,tSG,i-1表示上一任务完成时刻; E Rv, E Rt分别表示体数据模型、交互工具的姿态和位置误差。下面以体数据误差ERv为例介绍精度的计算方法,其位置误差 TE可以由欧式距离函数计算得到。
式(9),ST是期望的空间位置,UT是用户达到的空间位置。通过计算期望旋转矩阵SR 和用户操作所得旋转矩阵UR 的相似度来估计姿态误差ER :
图6 体数据初始状态以及5个交互任务目标图片
其中I是单位阵,M 是3×3矩阵,表示从姿态UR到SR 的旋转矩阵,可由式(11)计算得到。
完成交互任务后,每个被试者需填写一份调查问卷,如表1所示,用于主观评价LeVisall交互技术在易用性、自然性和高效性方面的体验。对于每个问题,被试者须先以1~5之间的数字来表达同意程度,然后给出简短的评论。
表1 LeVisall用户调查问卷题目列表
所有被试者均顺利完成指定的交互任务,采用LeVisall交互平均耗时304 s,平均综合误差6.5%;采用鼠标交互平均耗时380 s,平均综合误差8.6%。图7为用户分别使用鼠标和Leap Motion作为输入设备的实验数据统计结果。
从图 7(a)的曲线对比可以看出,LeVisall在执行任务3、任务4和任务5的速度表现优于鼠标。鼠标在空间旋转(任务 1)的表现反而稍好于LeVisall,这是由于人的生理限制,对于大角度旋转,仍然需要分次完成,尤其是桡偏和尺偏两个方向。而在其他仅需要小角度调整姿态的多自由度任务,用户可以迅速连续调整到指定姿态,并可以通过手势在交互工具和体数据之间来回切换,大幅提高交互效率。鼠标在平面任务和准 3维任务(如任务 4)有着较高的精度,但由于其自由度受限,而且空间映射认知困难,在操作自由度增加到9个(如任务3)的时候,用户很难快速调整到指定姿态。
在精度方面,由于鼠标是离散的精确输入设备,在5个任务中有3个任务的精度都略高于LeVisall。虽然 Leap Motion属于非精确操作设备,LeVisall在任务3和任务5的数据却明显好于鼠标。任务5需要调整切平面的中心点和法向量,用鼠标一次只能进行2自由度的控制,而LeVisall使用掌面直接映射切面使用户感到很自然;另外,本文基于速度的自适应滤波也是获得较高交互精度的原因。
如前所述,本文将用户分成3个组:组1为医学影像从业人员;组2为3D游戏玩家;组3为从未接触过3维用户界面。图8给出了不同分组采用LeVisall交互技术的实验对比统计数据图。
从图8可以看出,组1精度最高,速度相对较慢;组2速度快,精度最低;组3速度最慢,精度适中。这是由于组 1、组 2都曾经接触过类似的用户界面,但对目标任务的理解不同,组1更倾向于获得更符合目标的观测结果,而组2偏向于快速、高效完成任务。组3初次接触3维用户界面,认知加工最大,虽然完成时间稍长,但精度接近组 1,总体来说交互效率较高。从任务5的数据来看,不同分组被试完成时间和精度差异均不显著,且样本方差很小。任务2和任务3的数据说明分组1和分组2对高自由度操作任务较为熟悉。而由于有医学影像工作站工作经验,组1的被试者在体数据理解和交互控制精度方面都有显著的优势。
图9给出15个被试者对调查问卷的反馈结果。可以看出,大部分被试者认为LeVisall交互技术使用直观、可操控性强且易记易用。问题 3和问题4的结果表明LeVisall的手势设计简单、易记且直观,用户在交互意图和实际手势选择之间仅需要少量认知加工,仅有一个用户反映同一个手形在不同状态下对应不同操作需要时间去记忆和熟悉(如体切割和重置都用的是握拳手形)。LeVisall根据人手部活动特征设计的手势集加上基于 CUDA的实时交互绘制令用户有很强的代入感,有被试者在执行任务5时感叹道就像照镜子一样自然,问题 5得到的高平均分也说明了这点。
图7 Levisall交互和鼠标交互的实验数据对比结果
图8 不同分组采用LeVisall交互技术的实验对比结果
图9 被试者给问卷中的5个问题打分统计图
本文针对大屏环境下体数据的操控和探索,提出一种基于低成本Leap Motion传感器的高效、直观3维空间体交互技术LeVisall交互技术。该技术的优势在于没有复杂的菜单、按钮,用户不需要太多的学习和认知负荷便能熟练操作。通过形成性实验,充分考虑用户日常生活经验,合理设计交互手形手势集合和语法,提高LeVisall交互的自然性。本文通过5个体交互中常见任务对LeVisall交互技术进行评估,从试验结果可以看出,合理地将用户的手部姿态和运动与体交互工具进行绑定、映射,对于3维体交互的易用性、直观性和交互效率上都有着重要作用。
随着基于双目立体视觉和 RGB-D等测距跟踪技术的成熟以及硬件成本的降低,非接触式空间输入设备在虚拟现实和可视化领域有着广阔的应用前景。下一步LeVisall有以下两个可能的工作计划:(1)分析多用户协同、双手交互等应用场景的交互特征,完善LeVisall交互框架,并使用多传感器实现交互空间的扩展以满足上述场景所需要的识别范围;(2)建立多通道沉浸式交互环境,研究基于视点变换的立体视觉、距离感知是否会帮助用户理解 3维用户界面,从而更高效地完成交互任务。
[1] 曾理, 李宗剑, 刘长江. 3D-Wedgelet 分解与工业 CT 体数据面特征提取[J]. 电子与信息学报, 2010, 32(10): 2314-2319.Zeng Li, Li Zong-jian, and Liu Chang-jiang. 3D-Wedgelet decomposition and ICT cubic data’s surface feature extraction[J]. Journal of Electronics & Information Technology, 2010, 32(10): 2314-2319.
[2] Laha B, Sensharma K, Schiffbauer J D, et al.. Effects of immersion on visual analysis of volume data[J]. IEEE Transactions on Visualization and Computer Graphics, 2012,18(4): 597-606.
[3] 郭翰琦, 袁晓如. 体数据可视化传递函数研究[J]. 计算机辅助设计与图形学学报, 2012, 24(10): 1249-1258.Guo Han-qi and Yuan Xiao-ru. Survey on transfer functions in volume visualization[J]. Journal of Computer-Aided Design& Computer Graphics, 2012, 24(10): 1249-1258.
[4] Mistelbauer G, Kochl A, Bouzari H, et al.. Smart super views a knowledge-assisted interface for medical visualization[C]. IEEE Visual Analytics Science and Technology (VAST), Seattle, WA, USA, 2012: 163-172.
[5] Monclús E, Díaz J, Navazo I, et al.. The virtual magic lantern:an interaction metaphor for enhanced medical data inspection[C]. Proceedings of the 16th ACM Symposium on Virtual Reality Software and Technology, Kyoto, Japan, 2009:119-122.
[6] Song P, Goh W B, Hutama W, et al.. A handle bar metaphor for virtual object manipulation with mid-air interaction[C].Proceedings of the 2012 ACM Annual Conference on Human Factors in Computing Systems, Austin, TX, USA, 2012:1297-1306.
[7] 武汇岳, 张凤军, 刘玉进, 等. 基于视觉的互动游戏手势界面工具箱[J]. 软件学报, 2011, 22(5): 1067-1081.Wu Hui-yue, Zhang Feng-jun, Liu Yu-jin, et al.. Vision-based gesture interfaces toolkit for interactive games[J]. Journal of Software, 2011, 22(5): 1067-1081.
[8] Buxton W. A three-state model of graphical input[C].Proceedings of the Human-Computer Interaction-INTERACT 1990, Cambridge, UK, 1990: 449-456.
[9] Wigdor D and Wixon D. Brave NUI World: Designing Natural User Interfaces for Touch and Gesture[M].Burlington: Morgan Kaufmann Publishers, 2011: 65-72.
[10] Vaillancourt D E and Newell K M. Amplitude changes in the 8-12, 20-25, and 40 Hz oscillations in finger tremor[J].Clinical Neurophysiology, 2000, 111(10): 1792-1801.
[11] Casiez G, Roussel N, and Vogel D. 1€ filter: a simple speed-based low-pass filter for noisy input in interactive systems[C]. Proceedings of the 2012 ACM Annual Conference on Human Factors in Computing Systems, Austin, TX, USA,2012: 2527-2530.
[12] Shoemake K. Animating rotation with quaternion curves[J].ACM SIGGRAPH Computer Graphics, 1985, 19(3): 245-254.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!