基于深度学习的交通场景中行人检测方法-电子工程世界

0 引言

行人检测是目标检测领域中重要的研究课题，其在智能驾驶系统、视频监控、人流量密度监测等领域有广泛应用[1-2]。但由于行人背景的复杂以及个体本身的差异，行人检测成为目标检测领域的研究难点之一。

目前行人检测方法主要分为两类：传统的行人识别主要通过人工设计特征结合分类器的方式进行。比较经典的方法有HOG+SVM[3]、HOG+LBP[4] 等。此类方法可以避免行人遮挡带来的影响，但是泛化能力和准确性较低[5]，难以满足实际需求。另一类是基于深度学习的方法。通过多层卷积神经网络(CNN) 对行人进行分类和定位。与传统特征算子相比，CNN 能根据输入的图像自主学习特征，提取图像中更丰富和更抽象的特征。目前已有许多基于深度学习的目标检测框架，如R-CNN(Region Convolutional Neural Network) 系列[6-8]、YOLO(You Look at Once) 系列[9-12]。R-CNN 系列算法又被称为二阶段算法[13]，该类算法通过网络找出待检测目标可能存在的位置，即疑似区域，然后利用特征图内的特征信息对目标进行分类，优点是检测准确率较高，但实时性较差。YOLO 系列算法又称为一阶段算法[14]，此类算法所有工作过程在一个网络内实现，采用端到端的方式，将目标检测问题转换为回归问题，使其网络的实时性得到了较好的提高，但准确率却不及Faster R-CNN（Faster Region Convolutional Neural Network,更快速的区域卷积神经网络）。

本论文借鉴目标检测的R-CNN 系列算法，在Faster R-CNN 网络的第一层卷积层前加入一个预处理层，其次使用K-means 算法聚类分析anchor 框中行人的宽高比，选出适合行人的宽高比作为anchor 的尺寸，提出交通场景下基于Faster R-CNN 的行人检测算法。所提方法在自制的交通场景下的数据集上进行测试，实验表明网络的检测效果有明显提升。

1 Faster R-CNN检测方法

Faster R-CNN 的检测框架如图1 所示。其检测流程主要分为4 部分：卷积网络、RPN(Region Proposal Network)、感兴趣区域池化(RoI Pooling) 以及目标检测分类。

image.png?imageView2/2/w/1000

卷积网络由卷积层、池化层和输出层构成，各网络层之间权值共享，从训练的数据集中学习并自动提取目标特征。与传统手工设计特征相比，具有更好的泛化能力。

RPN 使用一个3×3 的块在最后一个卷积层输出的特征图上滑动来获得区域建议框即anchor 框，FasterR-CNN中的anchor 框有3 种比例尺寸，分别为0.5、1、2。

Faster R-CNN 的全连接层需要固定大小的输入，因此通过RoI 池化将不同大小的RoI 转成固定的大小。图2 为RoI 的池化过程。

image.png?imageView2/2/w/1000

在检测分类阶段，分类函数计算得分，得到目标的所属类别，同时通过边界框回归计算出检测框的位置偏移量，得到更精确的位置。

2 改进的行人检测方法

Faster R-CNN 是针对通用目标的检测网络，识别的类别数为20，但在行人检测中只需要识别“行人”及“背景”这两个类别。由于图片中的行人在图片中所占的比例较小，因此设计一个预处理层，提取一层底层特征（本文提取纹理特征），再与原始图像一起输入到卷积网络中，能够减少训练所需的时间。

2.1 预处理层

选择传统行人检测方法中的纹理特征(LBP 特征) 作为预处理部分要提取的特征。LBP 特征描述了图片的局部纹理，它以

每个像素值为中心取一个局部邻域区域，比较该区域内的每个像素的灰度值与中心像素的灰度值，得到一个二进制码，即该中心像素的LBP 值。但会导致二进制模式种类过多，所以等价模式(Uniform Pattern) 应运而生。等价LBP[15-16] (ULBP) 在LBP 算子的基础上，统计二进制数中“01”或“10”跳变的次数，若跳变次数在2 次以内，则称为一个等价模式类，定义式为：

image.png?imageView2/2/w/1000

式中， gp 表示邻域像素值， gc 表示中心像素值，U(LBP ) P,R 代表“01”或“10”的跳变次数。

从图3 中可以看出，图像中行人与背景的区别转换成了纹理上的差异。

image.png?imageView2/2/w/1000

(a)原图

image.png?imageView2/2/w/1000

(b)ULBP图

图3 原图与ULBP图

2.2 anchor框聚类分析

使用k-means 聚类对训练集中所有行人目标的真实框进行聚类分析。anchor 框聚类分析算法的主要流程：

Step1：将训练集中所有目标框的宽高构成数据集D，再从D 中随机选择一个聚类中心ci false；

Step2：求D 中每个样本s 到ci 的距离，记为di ，将使di 最小的那个样本归到ci 中；

Step4：循环执行Step2 和Step3，直到聚类中心不变。

取出所有行人标注框的坐标信息，计算出每一个标注框的宽和高，并对其进行聚类统计，这里取聚类数k = 3 。随后，计算宽与高的比值，使用统计直方图的方法求出其均值，得到宽高比的均值μ = 0.39 ，也就是说训练集中目标的anchor 框的合适的宽高比是0.39，即w ≈ 0.39h。图 4 为行人 anchor 框的宽高统计结果。

因此，本文将原Faster R-CNN 算法中anchor 框的宽高比修改为(0.39:1)。

image.png?imageView2/2/w/1000

a)宽高统计图

image.png?imageView2/2/w/1000

(b)宽高比统计图

图4 宽高聚类分析

3 实验结果与分析

3.1 实验数据集

实验数据集来源有：车载摄像头拍摄的图片、手机拍摄的图片，选取光照条件比较好的图片作为数据集，采用LabelImg 图像标注工具对采集到的图片进行标注，标注的区域包含行人的轮廓，得到带标签的行人数据集，共计1 304 张。标签名统一采用person 表示。在模型的训练阶段，选取数据集的80% 来训练模型，20% 作为测试集。部分实验数据集如图5 所示。

image.png?imageView2/2/w/1000

图5 数据集样本

3.2 实验平台及训练

实验所使用的软硬件环境如表1 所示。

表1 软硬件配置

image.png?imageView2/2/w/1000

训练参数如表2 所示。

表2 训练参数设置

image.png?imageView2/2/w/1000

3.3 实验结果分析

实验采用平均准确度(mAP)[17] 作为判断算法性能的标准。在自制的数据集上进行实验，检测精度达到了90.1%。所提方法检测结果与直接使用Faster R-CNN的检测效果对比如图6 所示，图6(a) 表示直接使用Faster R-CNN 的检测效果，图6(b) 表示所提算法的检测效果，通过左右图片对比可以看出，使用所提算法检测出来的目标个数要优于调整前的检测个数。

image.png?imageView2/2/w/1000

(a) Faster R-CNN检测结果

image.png?imageView2/2/w/1000

(b)本文方法结果

图6 测试结果对比

为了比较调整宽高比对模型准确率的影响，在自制数据集上对原算法和所提算法分别训练40 000 次。得到的检测准确率如表3 所示，所提算法的准确率较原算法提高了1.8%。

表3 调整宽高比前后测试结果

image.png?imageView2/2/w/1000

4 结语

以Faster R-CNN 为基础，通过在卷积层之前加入一个预处理层成功实现行人检测的目标。以自制数据集为训练和测试网络所需的数据，针对漏检和误检，提出将纹理特征作为底层特征对原图进行预处理，同时使用K-means 算法对行人宽高比进行统计分析，得出适合数据集中行人的宽高比尺寸，达到降低漏检的目的。实验测试结果表明，本文算法可以有效提高交通场景下行人检测的准确率，在漏检率和误检率上，分别提高了5%、6.1%。但存在训练样本还不够丰富，因此下一步研究工作的重点将放在提高检测模型的实时性和鲁棒性上。

参考文献：

[1] 许言午,曹先彬,乔红.行人检测系统研究新进展及关键技术展望[J].电子学报,2008,36(5):368-376.

[2] 刘建国,罗杰,王帅帅,等.基于YOLOv2的行人检测方法研究[J].数字制造科学,2018,16(1):50-54.

[3] DALAL N，TRIGGS B. Histograms of oriented gradients for human de-tection[C].2005 IEEE Computer Society Conference on Computer Vi-sion and Pattern Recognition,2005:886-893.

[4] WANG X,HAN T X,YAN S.An HOG－LBP Human Detector with Partial Occlusion Handling[C]∥Proc.2009 IEEE 12th International Conference on ComputerVision.Kyoto: IEEE Press,2009:32－39．

[5] 贾慧星,章毓晋.车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述[J].自动化学报,2007,33(1):84 -90.

[6] LIN T K,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C].//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，July 21-26，2017，Honolulu，HI，USA，NewYork：IEEE，2017(17)：355-379.

[7] GIRSHICK R. Fast R-CNN[C].2015 IEEE International Conference on Computer Vision(ICCV),2015(10):7-13.

[8] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].

IEEE Transaction on Pattern Analysis and Machine Intellige nce,2017,39(6):1137-1149.

[9] REDMOM J,DIVVALA S,GIRSHICK R,et al.You Only Look at Once: Unified,realtime object detection[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV),2016:779-788.

[10] REDMOM J,FARHADI A.YOLO9000:better,faster,s tronger[C].//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，July 21-26，2017， Honolulu，HI，USA，NewYork:IEEE，2017:6517-6525.

[11] REDMOM J,FARHADI A. YOLOv3:an incremental improvement[J/OL].arXiv preprint arXiv:https://arxiv.org/ abs/1804.02767.

[12] BOCHKOVSKIY A, WANG C Y,HONG-YUAN M L.YOLOv4:Optimal Speed and Accuracy of Oobject Detection[J/OL]. https://arxiv.org/abs/2004.10934.

[13] REILLY V,SOLMAZ B,SHAH M.Geometric constraints for humandetection in aerial imagery[C].The 11th European conference onComputer vision,2010:252-265.

[14] GERONIMO D,LOPEZ A,SAPPA A,et al.Survey of pedestrian detection for advanced driver assistance systems[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2010,32(7):1239-1258.

[15] TIMO O,MATTI P A,DAVID H.A Comparative Study of Texture Measures with Classification based on Feature Distributions[J].Pattern Recognition,1996,29(1):51-59.

[16] 程如中,张永军,李晶晶,等.应用于行人检测的HLBP与CHLBP 纹理特征[J].北京大学学报,2018,54(05):935-945.

[17] HENDERSON P,FERRARI V. End-to-end training of object class detectors for mean average precision[J].Asian Conference on Computer Vision,2016(6):198-213.

关键字：深度学习引用地址：基于深度学习的交通场景中行人检测方法

上一篇：提升车载式移动变电站运行安全的5G+水平平衡监测系统的探究
下一篇：面向未来电动汽车的技术：具有最小容差的全新变压器设计

推荐阅读最新更新时间：2026-03-23 18:05

多光谱气体传感器的抗交叉干扰设计，深度学习驱动的工业废气成分实时辨识系统

在工业废气排放监测与污染控制，多光谱气体传感器凭借其非接触、多组分同步检测的优势，已成为实时感知气体成分的核心设备。然而，工业废气中存在的复杂气体混合物(如SO₂与NO₂的吸收光谱重叠、VOCs(挥发性有机物)与水蒸气的基线漂移)会导致传感器输出信号产生严重的交叉干扰，使得传统基于阈值比较或线性拟合的辨识方法误报率高达30%以上。深度学习驱动的抗交叉干扰设计，通过构建高维特征提取与非线性映射模型，为多光谱气体传感器的精准辨识提供了突破性解决方案，使工业废气成分的实时检测准确率提升至98%以上，为环保监管与工艺优化提供了可靠数据支撑。多光谱传感器的交叉干扰根源：从物理机制到工程挑战多光谱气体传感器的核心原理是利用不同气体分子

[嵌入式]

机器视觉和深度学习在工业领域的应用

机器视觉是通过计算机模拟人类视觉功能，让机器获得相关视觉信息和加以理解。可分为“视”和“觉”两部分原理。 “视”是将外界信息通过成像来显示成数字信号反馈给计算机，需要依靠一整套的硬件解决方案，包括光源、相机、图像采集卡、视觉传感器等。“觉”则是计算机对数字信号进行处理和分析，主要是软件算法。机器视觉在工业上应用领域广阔，核心功能包括：测量、检测、识别、定位等。产业链可以分为上游部件级市场、中游系统集成/整机装备市场和下游应用市场机器视觉中，缺陷检测功能，是机器视觉应用得最多的功能之一，主要检测产品表面的各种信息。在现代工业自动化生产中，连续大批量生产中每个制程都有一定的次品率单独看虽然比率很小，但相乘后却成为企业难

[嵌入式]

机器视觉和<font color='red'>深度学习</font>在工业领域的应用

基于传感器和深度学习神经网络的血压监测系统

持续可靠地监测血压和心功能对心血管疾病的诊断和预防具有非常重要的意义。然而，现有的心血管监测仪器体积庞大且监测成本高昂，限制了其在早期诊断中的广泛应用。清华大学化学系的科研团队在Science Advances期刊上发表了以“Monitoring blood pressure and cardiac function without positioning via a deep learning–assisted strain sensor array”为主题的论文。该论文的第一作者为Shuo Li，通讯作者为张莹莹教授。这项研究开发了一款基于保形（conformal）柔性应变传感器阵列和深度学习神经网络的智能血压和心功

[嵌入式]

基于传感器和<font color='red'>深度学习</font>神经网络的血压监测系统

深度学习在语音增强中的应用

随着科学技术的发展，语音作为新一代人机交互方式，成为人和智能设备、语音助手交流的重要接口，然而在真实环境中，语音信号不可避免的被各种噪声所干扰，除了各种环境噪声，声波在封闭空间中的衰减和延时反射所引起的混响等都会影响语音的感知质量，研究者将真实场景下影响语音质量的因素总结为三个方面：环境噪声、房间混响和其他说话人干扰，语音增强的目的就是消除上述三个方面的影响。语音增强是指利用音频信号处理的技术以及算法提高失真语音信号的整体感知质量或者可懂度。语音去噪深度学习在语音降噪中的应用广泛，根据处理语音的通道数不同，可以分为单通道降噪和多通道降噪，其中单通道语音的去噪由俄亥俄州立大学的汪德亮团队提出的基于DNN-SVM算法，后来又相

[嵌入式]

英特尔全新Gaudi2处理器面世中国市场，加速大规模深度学习训练与推理

2023年7月11日，北京 —— 今日，英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上，英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana® Gaudi®2 。作为英特尔从云到端产品组合的重要组成，Gaudi2致力于以领先的性价比优势，加速AI训练及推理，为中国用户提供更高的深度学习性能和效率，从而成为大规模部署AI的更优解。英特尔于中国市场推出Gaudi2深度学习加速器英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera指出，“英特尔致力于通过为客户提供广泛的硬件选择，并支持开放的软件环境，加速人工智能技术的发展。凭借包括至强可扩展处理器和Gaudi2深度学习

[网络通信]

英特尔全新Gaudi2处理器面世中国市场，加速大规模<font color='red'>深度学习</font>训练与推理

基于深度学习的工业机器人抓取定位技术

从的角度，由简入繁从相机标定，平面物体、有纹理物体、无纹理物体、、与任务/运动规划结合等6个方面深度解析文章的标题。首先，我们要了解，领域的视觉（Machine Vision）跟计算机领域（Compur Vision）的视觉有一些不同：机器视觉的目的是给机器人提供操作物体的信息。所以，机器视觉的研究大概有这几块： 1. 物体识别（Object Recognion）：在图像中检测到物体类型等，这跟 CV 的研究有很大一部分交叉； 2. 位姿估计（Pose EsTImaTIon）：计算出物体在摄像机坐标系下的位置和姿态，对于机器人而言，需要抓取东西，不仅要知道这是什么，也需要知道它具体在哪里；

[机器人]

亚利桑那大学开发出新方法可为深度学习应用自动生成雷达摄像头数据集

近年来，机器人专家和计算机科学家一直在开发范围广泛的系统，以检测环境中的物体并进行相应的导航。而这些系统中的大多数都是基于在大型图像数据集上训练的机器学习和深度学习算法构建。虽然现在有大量用于训练机器学习模型的图像数据集，但包含雷达传感器收集数据的数据集仍然很少，尽管雷达相对于光学传感器具有显著优势。此外，许多可用的开源雷达数据集很难适用于多种用户应用程序。据外媒报道，亚利桑那大学（University of Arizona）的研究人员最近开发出一种新方法，可以自动生成包含标记雷达数据摄像头图像的数据集。该方法使用摄像头图像流上（又称YOLO）的高精度目标检测算法和关联技术（又称匈牙利算法）来标记雷达点云。（图片来源

[汽车电子]

亚利桑那大学开发出新方法可为<font color='red'>深度学习</font>应用自动生成雷达摄像头数据集

Socionext 和日本东北大学显著加快基于深度学习的 SLAM 处理

新方法支持边缘设备的高级图像识别处理 Socionext Inc. 与 Takayuki Okatani 教授领导的日本东北大学研究小组合作，开发了一种新方法，可以减少 SLAM（同步定位和映射）所需的处理时间，这对于执行自主控制的设备至关重要，时间仅为传统技术所需时间的 1/60。这种新方法使得在一些CPU 性能有限以及功耗有限的边缘设备的 SoC进行高级 SLAM 处理成为可能，例如自动驾驶汽车、AGV（自动导引车）、机器人、无人机和其他执行自主的设备控制，以及诸如 AR（增强现实）眼镜之类的设备。该研究工作已被 ICCV（计算机视觉领域最负盛名的会议之一）接受为演讲报告。这种新方法在 10 月 11 日至 17

[传感器]

Socionext 和日本东北大学显著加快基于<font color='red'>深度学习</font>的 SLAM 处理

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■你晒单我买单2026第1期报名中，DigiKey得捷带您畅享好物！

■有奖直播：AI基础设施技术测试周

■免费申请《一本书讲透汽车功能安全：标准详解与应用实践》，挑战《ISO26262标准》共读，赢好礼

■装备焕新月：e络盟Multicomp Pro系列产品，小投入，大升级 —— 装备焕新惊喜体验