网刊加载中。。。

0引言近年来，一种智能灵活、低价环保、结合现代有轨电车和BRT公交优势的中运量交通方式——虚拟轨道列车[1]问世。传统轨道列车的导向依靠钢轮间的强物理约束，而虚拟轨道列车通过识别路面磁场、图形等信号或标识实现主动导向。目前，常见的虚拟轨道列车以公路地面上的专用交通标记线作为虚拟轨道，通过前视摄像头实时获取路面图像，利用机器视觉原理和图像处理算法识别路面线路，配合双冗余的多轴转向系统控制列车沿着既定轨迹行驶。对车道线的检测是实现视觉导航自动驾驶的重要技术，大量学者对此进行了研究。文献[2]通过对原图像逆透视变换和二值化处理后，对车道线上进行分区域的特征提取，通过随机抽样一致算法对车道线进行拟合，对非实车道线则通过时域模糊法连接成长直线。文献[3]设计了一种高斯统计颜色模型，在使用模型提取感兴趣区域内车道线颜色特征的同时，通过改进的霍夫变换方法检测车道线，由坐标系之间的映射关系找出车辆位置、偏航角以及车辆与车道线之间的距离。文献[4]通过Sobel算子得到车道线边缘，剔除候选车道线边界中不清楚的车道边界特征，对图像滤波后使用霍夫变换检测车道线边界。目前，基于深度学习的车道线检测方法愈发成熟。该方法同样包含车道线特征提取和车道线拟合，但由于神经网络具有优秀的特征提取能力，在亮度不高或过高、车道污损遮挡等情况下，基于深度学习的车道线检测方法会取得更好的检测效果，其鲁棒性与泛化能力更佳。文献[5]提出一种融合了空间信息结构的神经网络模型，构造了一个检测感兴趣区域内的目标，并可同时获取目标位置、方向等其他信息的多任务深度卷积网络，为后续车道线结构建模提供几何信息的辅助。文献[6]使用一种全卷积神经网络对车辆和车道线进行检测，在高速公路场景下达到很高的检测精度。文献[7]提出了一种改进的VGGNet模型，可以实现车道线被遮盖情况下的检测。以上方法取得了较好的效果，但仍存在优化的空间。本文将提出一种基于双目立体视觉的虚拟轨道列车路径识别方法。首先，左右相机通过Mask R-CNN模型分别对车道块进行检测，然后各自对车道块进行多目标跟踪，并按照同一法则分配ID，最后对左右图像中各车道块有序、定向地进行双目匹配，并重建出车辆坐标系下路径的三维坐标。基于立体视觉得到的路径跟踪偏差、航向与轨道夹角、路径曲率等信息均为车辆空间下的真实数值，这为车辆的循迹控制、自主定位、相对位姿估计等提供了直接、准确的输入信息。半实物仿真试验结果表明本方法对路径的三维重建具有很高的精度，具备很好的泛化性能，适用于不同路况场景。1基本原理1.1双目视觉汽车的车道线识别多采用单目视觉检测，在二维平面上实现车道检测与路径感知。若要获得真实空间下路径与车体的位置关系，可根据车载相机相对水平路面的位姿对图像进行固定的透视变换，由像平面上的路径投影出水平路面上的“真实路径”[8]；但当道路不平整或存在坡度时，运用固有的透视变换会对道路的重建和认知产生偏差，如图1所示。采用双目立体视觉检测则无须考虑道路平面是否与预设投影平面重合，可由双目相机直接重建出车辆坐标系下路径的真实坐标[9]，提高车辆的路径感知能力。10.13890/j.issn.1000-128X.2024.01.018.F001图1固有透视变换导致的对非水平路面的认知偏差Fig. 1Wrong cognition of the non-level road pavement due to inherent perspective transformation对于汽车行驶的公路场景[如图2(a)]，其路况复杂、车道线标识不够完整且形式繁多，双目匹配困难很大。采用一般的双目匹配算法进行全像素的三维重建具有精度低、鲁棒性差和实时性差的缺点，依靠纯视觉很难重建出路径在真实空间下的三维信息，双目立体视觉难以应用[10]。本文研究对象——纯视觉导航虚拟轨道列车的虚拟轨道则具备车道块明显、外形完整、形状独特、格式统一、特点鲜明等优点，如图2所示。这为有针对性地采取更加合理、精确、完善的路径识别方法提供了充分的先决条件，为双目相机逐个对车道块进行目标跟踪与有序、定向地双目匹配提供了可行性。10.13890/j.issn.1000-128X.2024.01.018.F002图2汽车与虚拟轨道列车的车道对比Fig. 2Contrast of car lanes and virtual rail train lanes(a) 汽车车道线 (b) 虚轨列车车道块1.2相机模型与坐标系坐标系是描述空间位置关系的重要数学方法。在处理平面图像与构建立体视觉时，涉及到4个坐标系的转换，即像素坐标系、图像坐标系、相机坐标系、车辆坐标系。各坐标系的信息如表1。10.13890/j.issn.1000-128X.2024.01.018.T001表14个坐标系的信息Table 1Information of four coordinate systems坐标系坐标系原点单位像素坐标系Ouv-uv图像左上角pixel图像坐标系O-xy图像中心点mm相机坐标系Oc-xcyczc相机透镜光心mm车辆坐标系Ov-xvyvzv列车一位轴中心的地面投影mm相机成像原理如图3所示。以透镜的光心为原点建立相机坐标系Oc-xcyczc，zc轴与主光轴重合，xcOcyc平面位于透镜平面上。为便于研究，将倒立的像等效变换到透镜平面的前方，在正立的等效像平面上建立像素坐标系Ouv-uv和图像坐标系O-xy。10.13890/j.issn.1000-128X.2024.01.018.F003图3相机模型Fig. 3The camera model对于空间中一点T，规定其在相机坐标系下坐标为(xc,yc,zc)，在图像上的投影点为T'，则T'在像素坐标系和图像坐标系下的坐标(u,v)和(x,y)的转换关系为uv1=1dx0u001dyv0001xy1 (1)式中：dx, dy分别为每列像素点的宽度和每行像素点的高度。由图形的相似关系可得T'在图像坐标系和相机坐标系下的坐标(x,y)和(xc,yc,zc)的转换关系，其转换公式为zcxy1=f0000f000010xcyczc1 (2)式中：f为焦距，即图像坐标系原点O到相机坐标系原点Oc的距离。为了更直观地重建三维路径、估计车辆相对位姿和获取循迹控制更直接的输入信息，需建立车辆坐标系。考虑到车辆坐标系与相机坐标系方向一致有利于直观、方便地实现坐标转换，在建立车辆模型时，特以车辆纵向为z轴、垂向为y轴、横向为x轴，以列车第一根轴中心的地面投影点为原点建立车辆坐标系Ov-xvyvzv，如图4所示。10.13890/j.issn.1000-128X.2024.01.018.F004图4装有车载摄像头的车辆模型Fig. 4Model of tram with on-board cameras从相机坐标系到车辆坐标系的变换为刚性变换，点T在车辆坐标系下的坐标(xv,yv,zv)可由(xc,yc,zc)经平移变换和旋转变换得到，对应关系为xcyczc1=RT0⃗1xvyvzv1 (3)式中：R为三阶旋转矩阵；T为平移向量。将式(1)和式(2)代入式(3)，可得zcxy1=1dx0u001dyv0001f0000f000010⋅RT0⃗1xvyvzv1 (4)对式(4)合并整理，可得zcuv1=fx0u000fyv000010RT0⃗1xvyvzv1 (5)式中：fx0u000fyv000010为相机内参矩阵；RT0⃗1为相机外参矩阵。将内参矩阵与外参矩阵的积记作P，P为3×4的投影矩阵，设定P的各个元素为P=P11P12P13P14P21P22P23P24P31P32P33P34 (6)车辆坐标系与像素坐标系的转换关系为zcuv1=Pxvyvzv1 (7)2技术流程2.1算法框架本文参考株洲智轨列车[11]制式（如图5所示），设计列车及虚拟轨道结构，其中列车视觉系统由2个前视摄像头组成，用于道路信号采集；车道线为双虚线，每2个并行车道块为1个车道单元，如图6所示。10.13890/j.issn.1000-128X.2024.01.018.F005图5株洲智能轨道交通系统Fig. 5Zhuzhou intelligent rail transit system10.13890/j.issn.1000-128X.2024.01.018.F006图6列车及虚拟轨道结构图Fig. 6Structure diagram of train and virtual track算法流程如图7所示，主要步骤如下：10.13890/j.issn.1000-128X.2024.01.018.F007图7算法流程Fig. 7Algorithm process步骤1：双目相机采集图像。步骤2：图像预处理。对原始图像透视变换，采用高斯滤波滤除噪声，平滑图像；对图像进行形态学处理，利用开运算（即先腐蚀再膨胀），消除小的干扰物。步骤3：车道块检测。通过改进的Mask R-CNN模型检测车道块，并定位目标位置。步骤4：多目标跟踪。左右相机同时对各车道块进行目标跟踪，并按照同一法则分配ID。步骤5：双目匹配。通过相同ID进行匹配，定向、有序地实现同一车道块质心在左右图像中的双目匹配。步骤6：三维重建。基于视差原理，根据各车道块质心在左右图像中的像素坐标与相机内外参数矩阵得到车道块质心在车辆坐标系下的三维坐标。2.2基于Mask R-CNN的车道检测在汽车车道检测场景中，车道线常常不完整、形式复杂，常采用边缘检测、霍夫变换等方法。本文涉及的虚拟轨道列车的车道为独立完整的块状标识，因此考虑采用目标检测方法更加精准地检测车道块。本文构建了一个基于Mask R-CNN的车道检测模型。Mask R-CNN是一个实例分割模型，它能确定图片中各个目标的位置和类别，给出像素级预测。所谓“实例分割”，指的是对场景内的每种兴趣对象进行分割，无论它们是否属于同一类别。Mask R-CNN由Faster R-CNN和FCN（Fully Convolution Network）结合而成，前者负责目标检测，后者完成实例分割。本模型整体架构如图8所示。10.13890/j.issn.1000-128X.2024.01.018.F008图8Mask R-CNN整体架构Fig. 8Overall architecture of Mask R-CNN对于每个目标对象，经典算法Faster R-CNN有2个输出：分类标签和候选窗口。为了分割目标像素，在Faster R-CNN上添加1个分支网络FCN来产生对应的Mask分支，构造出Mask R-CNN模型。该模型将Faster R-CNN和FCN纳入同一巨型架构，模型的损失函数计算的是分类、生成窗口、生成掩模的总损失。Mask R-CNN算法步骤如下：①图像输入和预处理；②将处理后的图像输入神经网络获得特征图；③为特征图初步设定多个感兴趣区域（Region of Interest, ROI），获得多个候选ROI；④将候选ROI送入RPN网络中进行二值分类（前景或后景）和回归，过滤掉一部分候选的ROI；⑤对剩下的ROI进行“ROI Align”操作（即先将原图和特征图的像素对应起来，然后将特征图和固定的特征对应起来）；⑥对这些ROI进行分类、回归和Mask生成（在每一个ROI中进行FCN操作）。车道块检测过程如图9所示。图9基于Mask R-CNN车道块的检测过程Fig. 9Lane block detection process based on Mask R-CNN10.13890/j.issn.1000-128X.2024.01.018.F9a1(a)物体检测(b)实例分割10.13890/j.issn.1000-128X.2024.01.018.F9a2(c)全体车道块的检测2.3融合多目标跟踪的双目匹配在列车行驶过程中，对每个车道块进行跟踪[12]，将每个车道块中心作为1个对象，为其分配ID，计算相邻帧中所有对象的欧几里得距离，距离最小的组合暂定为两帧间同一对象的配对组合。为进一步提高跟踪匹配的准确性，在跟踪算法中融合卡尔曼滤波算法[13]：将对象的运动状态定义为多个正态分布的向量，当目标移动时，通过前一帧中对象的坐标和速度等参数，预测出当前帧中对象的坐标。将该预测坐标与上述配对的坐标进行重叠度（Intersection over Union, IOU）阈值匹配，从而实现对该对象合理跟踪。左右摄像头同时对所有车道块分配ID，并不断更新其中心坐标，其更新规则如下：若出现无关联的新中心，则添加为新对象，从ID集合里选取可用ID进行赋值；若与上帧目标关联，则继承上帧关联目标的ID；若n个连续帧内，旧对象不能与任何现有对象匹配关联，则消除该对象，回收其ID至ID集合。通用的图像双目匹配算法会对每帧采用暴力搜索，计算量巨大，并且在应对重复纹理区域的匹配问题上存在很大的困境[14]。对本文而言，各车道块彼此形状重复，特征相同，采用通用的双目匹配算法在对左右相机图像进行目标对应时，极易产生歧义匹配。针对此问题，本文采取融合多目标跟踪技术的双目匹配算法，通过左右相机图像中目标的位置、IOU、ID等属性信息实现左右相机各个车道块有序、定向的目标级关联匹配，如图10所示。相比于全像素下的双目匹配方法，本方法大幅节约了计算时间，可有效提升三维重建的实时性和准确性。10.13890/j.issn.1000-128X.2024.01.018.F010图10融合多目标跟踪的双目匹配Fig. 10Binocular matching based on multi-target tracking2.4三维重建双目立体视觉基于视差原理，利用成像设备从不同位置采集被测物体图像，通过目标点在左右图像中的像素坐标与相机内外参数矩阵实现对目标点的三维重建。双目相机模型如图11所示。左右相机的投影矩阵分别为PL、PR，对于空间中一点Txv,yv,zv，其在左右像平面上的投影点坐标分别为TLuL,vL, TRuR,vR。10.13890/j.issn.1000-128X.2024.01.018.F011图11双目相机模型Fig. 11Binocular camera model将左右相机的投影矩阵和投影点坐标依次代入式(7)，消掉zc，整理可得uLpL31-pL11uLpL32-pL12uLpL33-pL13vLpL31-pL21vLpL32-pL22vLpL33-pL23uRpR31-pR11uRpR32-pR12uRpR33-pR13vRpR31-pR21vRpR32-pR22vRpR33-pR23xvyvzv=pL14-uLpL34pL24-vLpL34pR14-uRpR34pR24-vRpR34 (8)将上式记作AX=b，由于该非齐次线性方程组包含4个约束条件和3个自由变量，该方程组为超定方程组。在实际测量时，数据存在噪声、相机内外参数的标定和TL、TR的选取存在误差，故不存在X使该超定方程组成立，但可求解其最小二乘解作为目标点T的坐标。超定方程组AX=b唯一的最小长度最小二乘解为X0=A+b (9)式中：A+为广义逆矩阵，A+=ATA-1AT。推导可得，目标点T在车辆坐标系下的三维坐标为xvyvzv=ATA-1ATb (10)式(10)即为对目标对象进行三维重建的数学模型。首先，根据上文得到的同一车道中心在左右图像中的像素坐标，由式(10)即可重建出其在车辆坐标系中的三维坐标；然后，对每个车道单元左右并行车道块的中心坐标取均值，求出该车道单元中心坐标；最后，利用三次样条插值法计算出整条道路中轴线轨迹。3半实物仿真试验本文设计了半实物仿真试验以验证该方法对虚拟轨道实时检测、跟踪和重建的效果。系统由智能小车、双摄像头、虚拟轨道和上位机组成，如图12所示。智能小车装载树莓派4B主板，摄像头型号为logi-C920。路面模型模拟了实际沥青道路的视觉特质，虚拟轨道单个车道块的参数为54 mm×18 mm，车辆轮距为358 mm，上位机为PC。10.13890/j.issn.1000-128X.2024.01.018.F012图12虚拟轨道列车半实物仿真系统Fig. 12Hardware-in-the-loop simulation system of virtual rail train小车在行驶过程中对路径进行动态实时重建，某时刻路径的三维重建效果如图13所示。该时刻对应的线路工况为在水平面上由直线进入半径R=400 mm的圆曲线区段。本文所设置车辆坐标系的x轴、y轴和z轴分别对应车辆的横向、垂向和纵向。其中，曲线L为车辆坐标系下重建路径的三维图像；曲线l1、l2、l3分别为曲线L在z-x平面、z-y平面、x-y平面上的投影，表征重建路径在俯视面、侧视面和前视面上的二维效果。10.13890/j.issn.1000-128X.2024.01.018.F013图13路径三维重建图Fig. 133D reconstruction of the path选取l1、l2与真实路径在“纵向-横向”“纵向-垂向”平面的投影图（见图14）进行对比，分析路径的重建偏差。由图14可知，重建路径在z-x平面上最大偏差值为11.847 mm；在z-y平面上最大偏差值为5.660 mm。在z-x平面和z-y平面上重建路径与实际路径偏差均很小，重建路径较好地符合真实轨迹，因此可为列车的循迹控制提供较准确的输入信息。图14重建路径与真实路径对比Fig. 14Comparison between the reconstructed path and the real path10.13890/j.issn.1000-128X.2024.01.018.F14a1(a)纵向-横向投影图10.13890/j.issn.1000-128X.2024.01.018.F14a2(b)纵向-垂向投影图为了进一步探究本文方法应用在不同场景下的泛化性能，设置坡度为0、5%、10%、15%的斜面路况及曲率半径为400 mm、800 mm、1 200 mm、1 600 mm的曲线路况用于路径重建。为更加直观地展示重建误差相对于本样机尺寸的大小关系，定义某一点[其坐标为(ex,ey,ez) ]的重建相对误差δ为该重建点到真实路径的最小空间距离与车辆轮距d（d=358 mm）之比，即δ=ex2+ey2+ez2d (11)在各路况场景下，全路径各点最大重建相对误差如表2所示。由表2可知，在不同坡度的斜面和不同曲率半径的曲线场景下，均实现了较高精度的重建，最大的重建相对误差均在4%以下，该模型具有很好的泛化性。10.13890/j.issn.1000-128X.2024.01.018.T002表2各路况下的最大重建相对误差Table2Maximum relative error of reconstruction under different road conditions路况最大重建相对误差δmax坡道i=02.95i=5%3.13i=10%3.43i=15%3.37曲线R=400 mm3.82R=800 mm3.54R=1 200 mm3.19R=1 600 mm3.02%4结束语本文提出一种基于双目立体视觉的虚拟轨道列车路径识别方法。其中，基于Mask R-CNN的车道检测模型充分利用了虚拟轨道列车车道块明显、外形完整、形状独特的特点，可以有效地检测车道块；融合多目标跟踪的双目匹配算法解决了通用的双目匹配算法计算量大和对重复物体匹配较难的缺点，为各车道块有序、定向地双目匹配和路径实时的三维重建提供了保障。半实物仿真试验验证了本文方法对路径的三维重建具有较高的准确性，并且在不同路况场景下具有较强的适应性。本文提出的方法为虚拟轨道列车提供了车辆坐标系下路径的三维坐标，克服了单目视觉的局限，增强了车辆系统的路径感知能力，为其循迹控制、自主定位和相对位姿估计等提供了更加直接、准确的输入信息。