计算机视觉技术在街边停车的实践应用

泊知港团队致力于应用前沿机器学习和计算机视觉方法来解决停车难题。我们将通过行车记录仪等设备提供的街景图像和视频数据应用于停车信息的收集。

近些年来,计算机视觉解决方案技术突飞猛进。如今,人们正在大力将此技术成果广泛进行实际应用,然而,大部分成果颇有局限,仅限于在实验室中有限的标准数据集上进行应用和测试。而在处理现实中的图像时,往往会遇到意想不到的问题。

泊知港团队在处理“真实环境”行车记录仪图像时也会遇到类似的问题。在使用这些数据来提取有用的停车信息时,团队先基于标准的街道分类模型,对图像上的每个像素进行分类,共有16个类别。该模型的简化版有5个类别:道路、车辆、人行道、路缘和其他。该模型最初在A2D2数据集上进行训练,A2D2数据集是由奥迪提供的一个公共数据集,其中包含一组在德国录制的视频。该模型具有较强的分类识别能力,分类正确率达97.5%。

左:A2D2数据集中的图像。中:地面实况分类(38个类别)。右:用于停车预测的5类别

泊知港实测

当我们将该模型用于在伦敦录制的行车记录仪视频,模型性能出现了显著劣化。

使用分类模型测试行车记录仪数据集

该模型在图像中反光较强的区域出现了失灵现象。这些反射光由车辆仪表台上的物品或仪表台本身引起。尽管肉眼能够忽略这些图像,但计算机却只能基于以往的数据进行分析。此前的训练数据不包含物体的反射倒影,所以此时出现模型失灵也并不意外。

有人还可能会认为,这个模式之所以失效,是因为它受到了德国街头的视频训练的影响,而不是伦敦数据。然而,该模型在“Camvid”数据集上也出现了相同的结果,“Camvid”数据集是在英国记录的另一个公开可用的数据集。

    

使用泊知港分类模型测试CamVid数据集

下一个错误源是反射本身。当使用放在仪表台上的非反光材料“仪表垫”录制视频时,可以减少这种反射。然而,由于许多视频由第三方提供,我们无法始终控制所有视频的录制方式,要使用这种不受控形式的数据,我们需要针对反射干扰提升模型的稳定性。

采用人工反射强化图像

数据增强是机器学习中使用的一种技术,它包括对数据随机进行轻微修正,以便模型可以观察到原始数据集之外的内容。例如,如果您的训练数据仅包含明亮的图像,则您的模型可能无法在较暗的图像上执行类似的操作。与其收集新的暗图像数据集,还不如采用一个简单的解决方案,人为地将训练图像变暗。相同的逻辑亦可应用于对比度、颜色等属性。

同样,我们的数据集不包含具有反射效果的图像,因此我们将人为添加反射仿真到训练图像。本例中,我们将车内物体反射到图像上,所以仪表台上的任何物体都可能会出现在图像上。最明显和负面影响最强的反射是仪表台自身的反射,但也包括诸如笔记本、包装纸或驾驶员放在仪表台上的任何物品。我们在训练图像上复制了这些反射,方法是将这些对象添加到图像中,使其看起来像是仪表台上物品的反射。

    

两种不同人工反射下的相同图像。左侧为车辆内饰的反射倒影。右侧笔记本的反射倒影。

成果

我们在扩展的数据集上成功地训练了模型,目前它的性能准确率达到了97.2%,与原始版本非常相似,这表明它已经学会了如何妥善处理人工反射。根据“真实环境”的数据来分析模型的性能,我们可以看到,仪表台反射的影响已经显著减少,如下图所示:

结论

在处理真实环境数据时,我们的研究人员不时会遇到由于数据不完美所导致的新问题。这可能包括反射、遮挡、遭破坏的路标信息,也可能是维护不善的停车基础设施,或是彻底磨损的路面标线。有时数据不能帮助我们获得目标信息,我们不得不彻底抛弃数据。然而,更多情况下,我们更倾向于迎难而上,将问题各个击破,正如本文所示,创造性的操作可以帮助我们解决问题!

联系我们