基于行人重识别的施工现场人员位置信息感知

杨彬; 胡晋铭; 张其林; 汪丛军

doi:10.3969/j.issn.0258-2724.20230125

基于行人重识别的施工现场人员位置信息感知

doi: 10.3969/j.issn.0258-2724.20230125

杨彬^{1, 2,},
胡晋铭^1,,
张其林¹,
汪丛军³

1.
同济大学土木工程学院，上海 200092
2.
新疆大学建筑工程学院，新疆乌鲁木齐 830047
3.
中亿丰建设集团股份有限公司，江苏苏州 215131

基金项目: 国家重点研发计划（2018YFD110090506）

详细信息

作者简介:
杨彬（1979—），男，副教授，博士，研究方向为智能建造，E-mail：yangbin@tongji.edu.cn

中图分类号: TU721.2；TP391.41
计量
- 文章访问数: 146
- HTML全文浏览量: 64
- PDF下载量: 32
- 被引次数: 0
出版历程
- 收稿日期: 2023-03-28
- 修回日期: 2023-06-21
- 网络出版日期: 2024-11-19
- 刊出日期: 2023-09-04

Location Information Perception of Onsite Construction Crew Based on Person Re-identification

1.
College of Civil Engineering, Tongji University, Shanghai 200092, China
2.
College of Civil Engineering and Architecture, Xinjiang University, Urumqi 830047, China
3.
Zhongyifeng Construction Group Co., Ltd., Suzhou 215131, China

摘要

摘要:
为结合施工场景动态性强、遮挡严重、人员衣着相似等特点，实现对施工现场人员持续的位置信息感知，提出一种基于计算机视觉的施工现场人员信息智能感知算法. 首先，利用基于深度学习的目标检测算法实现人员的初步感知；其次，以行人重识别的视角提出一种数据关联方法，通过深度特征匹配实现目标ID分配，采用基于重排序的距离度量优化相似度度量结果，再利用缓冲机制和特征动态更新机制对匹配结果进行后处理，减少施工场景难点带来的错误匹配；然后，利用图像透视变换获取与ID对应的2D坐标信息及运动信息，为生产力分析提供基础数据；最后，利用所采集的包含不同施工阶段的图像构建标准测试视频，并对方法进行测试. 研究表明：在不同场景下，算法平均IDF1（ID的F1得分）和多目标追踪准确度（multiple object tracking accuracy，MOTA）分别为85.4%和75.4%，所提出的重排序方法、匹配后处理机制有效提升追踪精度，相比去除这些优化机制后的算法，IDF1和MOTA平均分别提升了52.8%和3.8%.
- 智能建造 /
- 目标追踪 /
- 计算机视觉 /
- 行人重识别 /
- 生产力管理
Abstract:
To obtain location information of onsite construction crew continuously with the consideration of dynamical changing, occluding, and high appearance similarity in construction scenes, a computer vision-based location information perception method for onsite construction crew was proposed. Firstly, a deep learning-based object detection method was utilized to percept targets preliminarily. Then, a data association method based on person re-identification was used, where ID assignment was completed by matching the deep learning-based feature. A distance metric method based on re-ranking was utilized to optimize the similarity measurement results, and the matching result was processed by using a buffering mechanism and a dynamical feature updating mechanism, so as to mitigate mismatch due to difficulties in construction scenes. 2D coordinates and movement information corresponding to ID were obtained using perspective transformation of images to provide basic data for productivity analysis. Finally, standard test videos were created from images collected at different construction stages to test the proposed method. The test results show that in different scenes, the average F1 score of ID (IDF1) and multiple object tracking accuracy (MOTA) of the algorithm are 85.4% and 75.4%, respectively. The proposed re-ranking method and post-processing mechanism for matching effectively improve the tracking accuracy. Compared with the algorithm after removing these optimization mechanisms, the average improvement of IDF1 and MOTA is 52.8% and 3.8%, respectively.
- intelligent construction /
- target tracking /
- computer vision /
- person re-identification /
- productivity management

HTML全文

感知施工现场人员的位置信息并进行实体追踪定位，能够为生产力分析、安全管理提供基础数据^[1]. 相比基于无线电的方法定位，如无线电射频识别（RFID）、超宽带（UWB）和基于传感器的全球定位系统（GPS），基于计算机视觉的位置信息采集技术具有成本低、无接触、效率高等优点^[1-3].

基于计算机视觉的施工实体追踪与定位研究多采用手工设计的图像特征（如梯度直方图和色彩直方图）进行目标检测和数据关联^[1-2,4]. 数据关联即为目标检测结果分配唯一ID，实现目标的持续追踪. 然而，手工设计特征鲁棒性较差，随着深度学习的发展，Son等^[5]采用深度残差网络作为主干网络进行特征提取，实现高精度的施工现场人员检测；还使用YOLOv4^[6]进行目标检测，并利用基准卷积神经网络提取特征进行匹配^[3]. 此外，Angah等^[7]利用Mask RCNN （region-based convolutional neural networks）^[8]进行检测，并结合不同的基准卷积网络进行特征提取，完成施工人员的匹配. Zhang等^[9]则利用行人重识别深度特征实现跨摄像头的施工现场人员匹配.

行人重识别原是多目标多摄像头追踪的子任务，后来分离成为独立的研究方向，旨在利用目标图像实现行人跨时空的准确检索^[10-11]. 上述研究多将行人重识别方法用作特征提取器，并未充分挖掘特征序列间的关联，限制了匹配的准确性；另一方面，行人重识别研究针对的场景大多为普通行人场景，相较之下，施工场景背景复杂、人员姿势丰富、着装更为相似、遮挡重叠更为严重，依靠外观特征进行匹配容易产生错误匹配，需要针对施工场景提出优化机制.

本文采用YOLOv5算法进行目标检测，并提出一种基于行人重识别的数据关联方法，以实现对施工人员的视觉追踪. 该方法包括基于重排序的距离度量技术，能够考虑深度特征之间的关联性，从而增强对难样本的识别能力. 此外，还引入一种后处理机制，结合缓冲机制和特征动态更新，旨在优化匹配结果，充分考虑施工环境的动态性、复杂性及人员着装的相似性，以提高追踪的准确性. 在视觉追踪的基础上，运用图像透视变换实现对施工人员在现场的真实2D坐标及运动信息的持续感知，为生产力分析提供基础数据.

1. 算法整体流程

算法如图1所示，由目标检测、目标追踪、坐标获取3个模块组成. 图中：q_i为第i个待检目标，g_j为库中第j个对象（j=1, 2, …, J，库中储存图像是由深度网络提取到的深度特征而非直接存储图像，故称其为对象）.

图 1 算法流程示意

Figure 1. Algorithm procedure

下载: 全尺寸图片幻灯片

目标检测能够完成大类目标（如人员、机具、材料等）识别与初步定位，但并不能实现大类下个体之间的区分，以及视频帧与帧之间的目标辨识. 因此，在目标检测基础上进行数据关联，为被检测出的对象分配ID，实现目标视觉追踪. 本文以行人重识别的视角建立一种数据关联方法，每帧通过目标检测网络输出的目标称为待检目标（query），这些目标需要和人员图像库（gallery，以下简称库）中的若干对象进行匹配，以为其分配ID. 完成数据关联后，基于图像透视变换完成施工人员现场真实位置信息获取，并结合帧率信息获取如运动距离、速度、时间等的基础生产力分析数据.

2. 目标检测

本文采用基于深度学习的单阶段目标检测方法YOLOv5^[12]，该方法是YOLO系列的第5版，属于目前主流的单阶段算法之一. 具体而言，使用YOLOv5l网络架构，并以An等^[13]提出的施工现场数据集为基础，提取其中包含工人的部分图像和对应的标注信息，同时结合现场采集的图像，构建训练集以及验证集. 其中，训练集6085张图像，验证集1522张图片.

训练初始学习率为3.2 × 10⁻³，最终OneCycle学习率为0.12，动量为0.853，权重衰减为3.6 × 10⁻⁴，训练轮数为400轮，每轮样本数为16个. 训练目标框损失变化情况见图2. 在验证集中，训练后的网络检测平均精度均值（mean average precision，mAP）达到87.5%.

图 2 目标检测网络目标框损失变化曲线

Figure 2. Loss curves of target boxes for target detection network

下载: 全尺寸图片幻灯片

3. 基于行人重识别的数据关联

3.1 基于重排序的距离度量

通过深度学习行人重识别网络提取目标的外观特征向量，利用特征向量之间的欧氏距离进行度量和对比，从而实现对施工现场不同工人的准确识别. 在遮挡和重叠情况下，该方法还能有效进行“重识别”同一目标.

采用Luo等^[14]提出的基准网络，如图3所示. 图中，GAP、BN、FC分别为全局平均池化层、批正则化层、全连接层. 网络的输出ID的用于训练，而特征向量则用于推理和模型训练. 在测试阶段，使用在行人重识别标准数据集Market1501^[15]上预训练的模型.

图 3 行人重识别算法网络结构

Figure 3. Network structure of person re-identification algorithm

下载: 全尺寸图片幻灯片

将待检测目标与数据库中所有对象进行欧氏距离度量，并按距离从小到大排序，生成初始序列 $L_0\left(q_i\right)$ ，如式（1）所示. 在这个序列中，距离越小的对象与待检测目标越相似，因而为该待检测目标分配序列中第1个对象对应的ID.

$\begin{split} & L_0\left(q_i\right)=\left\{g_j \mid j \in\{1,2, \cdots, J-1\}, \;d_1\left(q_i, g_j\right)<\right.\\ & \left.d_1\left(q_i, g_{j+1}\right)\right\}, \end{split}$

(1)

$d_1\left(q_i, g_j\right)=\left\|\boldsymbol{f}_{q_i}, \boldsymbol{f}_{g_j}\right\|_2,$

(2)

式中： $d_{1}\left(q_{i}, g_{j}\right)$ 为q_i和g_j间的欧氏距离， ${\boldsymbol{f}}_{q_i}$ 和 ${\boldsymbol{f}}_{g_j}$ 分别为q_i和g_j对应的特征向量.

施工场景下人员穿着相似，排序靠前对象可能并非该待检目标的正确配对. 此外，ID分配仅考虑了外观特征的相似度，所构建序列的排序信息未得到充分利用，而目标和对象若属于同一ID，则二者的近邻之间有较高的相似度^[16]. 为此，引入行人重识别研究中的重排序（re-ranking）概念，针对数据关联任务，提出一种基于k最邻近的重排序方法，并对重排序后的序列进行特征局部扩展，以获得更为鲁棒的特征表示，从而生成最终的优化序列，以提高算法在施工人员外观相似情况下的匹配准确性，如所示. 图中，g_j右侧括号内的 $h_{p}^{(l)}$ 表示序列中对象g_j的真实ID为l，并且在排序中是序列中第p个ID为l的对象， $L_{1}\left(q_{i}\right)$ 、 $L_{*}\left(q_{i}\right)$ 分别为经过k最邻近重排序后的序列（优化序列1）和最终匹配序列， $N\left(g_{j}, k\right)$ 为库中对象g_j的k最邻近集（定义见3.1.1节）， $q_{1}^{*}$ 为特征局部扩展后的待检目标，k_e为计算局部扩展特征时的对象数.

图 4 重排序示意

Figure 4. Re-ranking

下载: 全尺寸图片幻灯片

3.1.1 基于k最邻近的重排序

取待检目标的k最邻近集 $N\left(q_{i}, k\right)$ ，也即初始匹配序列 $L_{0}\left(q_{i}\right)$ 中的前k项中满足距离阈值要求的对象集，如式（3）所示. 其中，k取值见式（4）. 使用同样的方法，对 $N\left(q_{i}, k\right)$ 中每个对象计算其k最邻近对象集 $N\left(g_{j}, k\right)$ （排除该对象本身）. 基于建立好的近邻集，利用Jaccard距离^[17]，计算待检目标与其k最邻近集中对象的邻近距离 $d_{2}\left(q_{i}, g_{j}\right)$ ，表征集合间的相似度，如式（5）所示，对于待检目标的非k最邻近对象，该值取1. 采用欧氏距离与最邻近距离的加权 $d\left(q_i, g_j\right)$ 获得重排序后的序列L₁(q_i)，如式（6）所示.

$N\left(q_i, k\right)=\left\{g_j | j \in\{1,2, \cdots, k\}, g_j \in L_0\left(q_i\right)\right\},$

(3)

$\begin{split} & k=\min \{k_0, \max \{j | j \in\{1,2, \cdots, J\}, \\ &\quad d_1(q_i, g_j)<d_0\}\}, \end{split}$

(4)

$d_2\left(q_i, g_j\right)=\left\{\begin{array}{l} 1-\dfrac{N\left(q_i, k\right) \cap N\left(g_j, k\right)}{N\left(q_i, k\right) \cup N\left(g_j, k\right)},\quad j \leqslant k, \\ 1,\quad j \gt k, \end{array}\right.$

(5)

$\begin{split} & L_1(q_i)=\{g_j | j \in\{1,2, \cdots, J-1\}, \\ &\quad d(q_i, g_j)<d(q_i, g_{j+1})\}, \end{split}$

(6)

$d\left(q_i, g_j\right)=\left(1-\lambda_1\right) d_1\left(q_i, g_j\right) + \lambda_1 d_2\left(q_i, g_j\right),$

(7)

式中： $k_{0}$ 为设定的邻近数， $d_{0}$ 为距离阈值， $\lambda_{1}$ 为近邻距离权重.

3.1.2 特征局部扩展

将待检目标的图像特征向量与重排序后序列的前 $k_{{\mathrm{e}}}$ 个对象的图像特征向量进行加权，如式（8）所示. 该加权方法结合排序信息，根据对象在序列中的位置调整特征权重，确保越接近目标的对象获得更大权重. 利用扩展的特征向量再次进行距离度量，得到该待检目标的最终匹配序列，如式（10）所示.

$\boldsymbol{f}_{q_i}^*=\left(1-\lambda_2\right) \boldsymbol{f}_{q_i} + \lambda_2 \frac{\displaystyle\sum_{j=1}^{k_{\mathrm{e}}}\left(k_{\mathrm{e}}-j + 1\right) \boldsymbol{f}_{g_j}}{\displaystyle\sum_{j=1}^{k_{\mathrm{e}}}\left(k_{\mathrm{e}}-j + 1\right)}，$

(8)

$\begin{split} & k_{\mathrm{e}}=\min \{k_{{\mathrm{e}} 0}, \max \{j | j \in\{1,2, \cdots, J, \\ &\quad d(q_i, g_j)<d_{{\mathrm{e}} 0}\}\}, \end{split}$

(9)

$\begin{aligned} & L_*\left(q_i\right)=\left\{g_j | j \in\{1,2, \cdots, J-1\},\right.\\ &\quad \left.d_1\left(q_i^*, g_j\right)<d_1\left(q_i^*, g_{j+1}\right)\right\}, \end{aligned}$

(10)

式中： $\lambda_{2}$ 为扩展权重， $k_{{\mathrm{e}} 0}$ 为设定的扩展邻近数， $d_{{\mathrm{e}}0}$ 为扩展距离阈值.

3.2 匹　配

匹配是为待检目标分配ID. 在数据关联任务中，每个待检目标对应唯一ID，不存在多个目标共用同一ID的情况. 此外，追踪过程中可能出现库中原未出现的新目标，更类似于开放环境下的行人重识别^[11]. 因此，为正确分配ID，不同于3.1节中仅度量待检目标与库中对象之间的距离，而是利用最终匹配序列 $L_{*}\left(q_{i}\right)$ ，计算待检目标 $q_{i}$ 与库中对象的距离. 计算所有待检目标与所有ID的距离，构建距离矩阵D，如式（11）所示.

$\boldsymbol{D}=\left[\begin{array}{cccccc} d_{11} & d_{12} & \cdots & d_{1 l} & \cdots & d_{1 n} \\ d_{21} & d_{22} & \cdots & d_{2 l} & \cdots & d_{2 n}\\ \vdots & \vdots & & \vdots & & \vdots \\ d_{i 1} & d_{i 2} & \cdots & d_{i l} & \cdots & d_{i n}\\ \vdots & \vdots & & \vdots & & \vdots \\ d_{m 1} & d_{m 2} & \cdots & d_{m l } & \cdots & d_{m n} \end{array}\right]_{m \times n},$

(11)

式中： $d_{il}$ 为待检目标q_i与 $L_{*}\left(q_{i}\right)$ 中ID为l的第1个对象间的欧式距离，也即 $d_{1}\left(q_{i}^{*}, h_{1}^{(l)}\right)$ ；m和n分别为这一帧中待检目标数和库中所有ID数.

基于建立好的距离矩阵，采用改进的Jonker-Volgenant方法^[18]为每个待检目标分配ID. 对于被分配ID为l的待检目标q_i，若d_il小于匹配阈值，则认为匹配成功，为其分配对应ID；否则，认为出现了库中没有的新目标，为其分配新ID. 此外，若m>n，则也表示出现了库中没有的目标，为这些没有被匹配到的待检目标分配新ID.

3.3 匹配结果后处理

3.3.1 缓冲机制

施工场景复杂，常常出现遮挡和姿态变化等情况，使得即使待检目标确实属于某一数据库ID，也可能面临匹配失败. 此外，目标检测中的误检也可能误将新ID赋予错误的目标，增加误判风险. 为应对这一问题，引入缓冲机制，该机制通过建立一个缓冲库来类比原始库. 每帧待检目标首先尝试与原库匹配，如果匹配失败，则会与缓冲库进行匹配；如果成功，则该特征将被添加到缓冲库中. 当缓冲库中对应ID的特征向量数量达到设定阈值时，会将该待检目标加入主库并赋予新ID. 如果仍然匹配失败，则在缓冲库中为该待检目标创建新ID并存储其特征向量. 同时，缓冲库中连续若干帧匹配失败的ID将被删除. 最终追踪结果由两部分组成：一是成功匹配主库的目标，二是缓冲库中满足特征向量数量要求的目标. 该缓冲机制提高了算法的容错性，从而减少错误匹配的发生.

3.3.2 特征动态更新机制

对于匹配成功的若干待检目标，计算其两两间目标框的交并比（2个矩形相交面积与相并面积之比），若任意一个待检目标与其余待检目标的目标框交并比均小于阈值，则认为不存在较大重叠，将该待检目标的图像特征存入库中对应ID下，若该ID特征数满足限值，则随机替换非初始图像特征，见图5. 由于库并不能无限储存特征，特征的动态更新确保库中始终保留与当前目标相近的图像特征，从而提高姿态变化情况下的追踪准确率，并有效避免库中出现重叠的图像特征，减少错误匹配的发生.

图 5 匹配结果后处理方法示意

Figure 5. Post-processing method for matching results

下载: 全尺寸图片幻灯片

4. 坐标获取

上述目标追踪方法只能获取人员与ID对应的像素坐标，为获取现场真实位置信息，需要进行坐标变换. 假定所有施工人员均位于同一施工平面，则可忽略深度信息，通过透视变换获取目标在平面上的真实2D坐标^[19]. 在变换前需对相机进行基本的畸变矫正，如图1，这里不再赘述其过程.

图像透视变换本质是利用图像的单应性实现2D图像之间的映射，在变换前后直线仍为直线，效果见. 图像坐标系 $uOv$ 通过透视变换转换为设定的 $u^{\prime} O^{\prime} v^{\prime}$ 坐标系，与结构图对应. 透视变换式见式（12）. 为求解透视变换矩阵需选择4对参考点，例如，图6中4个点柱节点A、B、C、D，变换后得到A′、B′、C′、D′. 实际计算时可选择超过4个点，利用随机抽样一致法（random sample consensus，RANSAC）获得更鲁棒的结果.

图 6 透视变换示意

Figure 6. Perspective transformation

下载: 全尺寸图片幻灯片

$w[\; x \quad y \quad 1 \;]^{\mathrm{T}}=\boldsymbol{A}_{3 \times 3}[\; x_0 \quad y_0 \quad 1 \;]^{\mathrm{T}},$

(12)

式中： $\left[x_{0}\;\;\; y_{0}\;\;\; 1\right]^{{\mathrm{T}}}$ 和 $[x\;\;\; y\;\;\; 1]^{{\mathrm{T}}}$ 分别为变换前、后对应点的齐次坐标（变换前坐标采用目标框底边中点像素坐标）， $w$ 为比例系数， ${\boldsymbol{A}}_{3 \times 3}$ 为透视变换矩阵.

获取坐标后，结合视频帧率可以分析人员的运动信息. 通过设置采样频率，计算指定区间内的平均移速，如果该速度满足阈值要求，则判定目标处于运动状态. 同时，更新目标的运动距离和时间.

5. 实验验证与模型评价

5.1 实验案例概况

在上海市某房屋建筑施工现场收集视频资料，并从不同视角和施工阶段中选取具有各种施工现场特点的视频，以制作标准测试视频用于算法测试. 其详细信息见表1. 所有视频均以25帧/s的速度拍摄，且大部分场景中目标的外观相似度较高. 算法测试的软硬件配置如表2所示.

表 1 标准测试视频详细信息

Table 1. Details of standard test videos

编号	主要施工活动	视角	帧数/帧	目标数/个	难点
1	混凝土浇筑	平视	1479	10136	尺寸差异、遮挡
2	结构测设	平视	769	4606	尺寸差异、遮挡
3	混凝土浇筑	俯视	754	9803	夜间、遮挡
4	结构测设	俯视	616	8101	小目标、遮挡
5	钢筋绑扎	俯视	1230	26922	小目标、遮挡
6	混凝土浇筑	俯视	704	8427	夜间、小目标
7	混凝土模板搭设	俯视	1131	5656	姿态改变、背景复杂
8	预制柱吊装	俯视	1374	11220	动态性强、遮挡
9	预制板吊装	俯视	866	4221	动态性强、遮挡
10	脚手架搭建	俯视	497	6853	背景复杂
11	钢筋加工	俯视	632	3265	人员离开又重进入

下载: 导出CSV

| 显示表格

表 2 软硬件配置详情

Table 2. Software and hardware configuration

项目	详情
监控设备	6 寸球机型号：DS-2DC6423IW-AE
CPU	Intel（R） Core（TM） i9-10900X @3.70 GHz
GPU	NVIDIA GeForce GTX 2080 Ti
操作系统	Ubuntu 20.04.3
编程环境	Python 3.8.8
深度学习框架	Pytorch 1.9.1 + cu102

下载: 导出CSV

| 显示表格

5.2 模型评价方法

采用多目标追踪准确度（multiple object tracking accuracy，MOTA）和IDF1（ID的F1得分）对目标追踪效果进行评价，其计算分别如式（13）、（14）所示.

$A_{\mathrm{{MOT}}}=1-\frac{\displaystyle \sum_{t=1}^T\left(M_t + W_t + M_t\right)}{\displaystyle \sum_{t=1}^T G_t} \times 100{\text{%}},$

(13)

$\begin{aligned} F_{{\mathrm{ID}}}=\frac{2}{1 / P + 1 / R} \times 100 {\text{%}}, \end{aligned}$

(14)

式中： $M_{t}$ 、 $W_{t}$ 、 $M_{t}$ 、 $G_{t}$ 分别为第 $t$ 帧中的漏检数、误检数、ID切换数、真实目标数；T为视频总帧数，反映追踪的稳定性；P和R分别为ID的准确率和召回率，能够综合反映ID的准确性.

5.3 视觉追踪

按照实验结果选取参数配置：匹配阈值0.6，缓冲库图像特征限值15个，库中每个目标的特征数限值20个，交并比阈值0.8. 其余参数设置为： $k_{0}=20$ 个， $d_{0}=1.0$ ， $\lambda_{1}=0.8$ ， $k_{{\mathrm{e}} 0}=10$ 个， $d_{{\mathrm{e}}0}=0.6$ ， $\lambda_{2}=0.5$ . 部分场景追踪效果如图7所示，算法运行平均帧率达到15.2帧/s.

图 7 不同场景视觉追踪效果

Figure 7. Visual tracking results in different scenes

下载: 全尺寸图片幻灯片

为验证算法的有效性，在不同场景中，与其他追踪算法进行对比，结果见表3. 表中数据分别为IDF1和MOTA，例如，“61.5/65.8"表示算法DAN在场景1下的IDF1和MOTA分别为61.5%、65.8%，余表同. 由表可知，在大部分场景下，本文算法结果最优，平均IDF1和MOTA分别为85.4%和75.4%.

表 3 不同算法在标准测试视频中的结果

Table 3. Performance of different algorithms on standard test videos %

算法	场景 1	场景 2	场景 3	场景 4	场景 5	场景 6	场景 7	场景 8	场景 9	场景 10	场景 11
DAN*^[20]	61.5/65.8	44.2/55.4	66.8/67.8	79.2/77.9	73.1/61.5	78.9/81.3	95.3/86.4	76.7/84.2	78.6/81.3	65.5/59.0	93.5/96.2
TraDeS^[21]	43.4/27.0	32.2/21.2	8.2/5.3	10.4/−10.8	8.8/−6.8	40.3/28.8	4.2/2.6	30.2/36.2	5.4/−0.7	10.5/2.8	40.4/16.6
FairMOT^[22]	48.7/47.0	51.4/54.0	18.4/13.5	47.9/40.5	12.0/0	61.9/45.0	10.1/9.6	29.1/33.6	28.2/18.2	11.6/5.7	49.8/43.5
Trackformer*^[23]	61.7/55.3	49.8/44.4	29.5/23.0	58.0/54.5	37.2/22.7	68.7/58.9	40.6/24.1	36.7/52.3	32.8/30.6	37.5/38.1	83.8/95.7
Unicorn^[24]	61.4/57.5	70.5/64.0	13.2/4.6	62.6/46.9	20.1/16.4	72.5/66.3	3.2/3.4	54.6/58.7	34.3/29.2	40.4/34.2	81.7/79.9
ByteTrack^[25]	73.4/63.7	67.3/62.4	64.6/58.2	82.1/73.5	38.5/29.6	77.6/71.2	33.4/31.1	61.8/67.1	52.6/54.1	47.0/34.4	83.0/75.8
本文算法*	78.0/66.0	73.3/57.1	82.4/67.8	87.2/77.7	78.0/63.1	89.1/81.6	97.8/95.6	91.8/84.8	90.5/81.5	73.8/58.3	97.5/96.4
注：带 * 的方法使用了相同的目标检测结果，最优结果加粗表示.

下载: 导出CSV

| 显示表格

为评估本文所提出的基于重排序的距离度量方法及匹配后处理优化机制对算法性能的影响，对比了不同架构下的实验结果，详见表4. 结果显示，包含重排序方法和匹配后处理优化机制（包括缓冲机制和动态更新机制）的算法，相比于去除这二者后的算法，平均IDF1和MOTA分别提高52.8%和3.8%.

表 4 不同架构下追踪结果详情

Table 4. Tracking results with different architectures %

架构	场景 1	场景 2	场景 3	场景 4	场景 5	场景 6	场景 7	场景 8	场景 9	场景 10	场景 11
完整	78.0/66.0	73.3/57.1	82.4/67.8	87.2/77.7	78.0/63.1	89.1/81.6	97.8/95.6	91.8/84.8	90.5/81.5	73.8/58.3	97.5/96.4
无重排序	77.3/66.0	60.1/56.6	81.6/67.6	77.8/77.5	74.8/61.9	88.1/81.4	97.8/95.6	80.6/84.2	90.4/81.3	66.8/58.3	95.9/92.6
无缓冲	76.9/66.0	56.8/55.6	79.3/68.0	81.5/77.9	76.0/61.5	87.1/81.6	97.8/95.6	91.3/84.2	89.5/81.0	72.8/59.1	96.0/96.4
无动态更新	67.0/62.9	47.1/53.5	46.7/60.5	56.1/66.4	45.0/54.7	69.2/77.8	68.4/91.9	60.4/79.4	69.1/78.5	51.3/51.2	92.3/93.7
仅动态更新	70.0/65.9	55.5/55.5	76.4/67.9	74.0/77.7	64.7/61.5	84.5/81.5	93.9/95.6	78.0/84.1	81.4/81.1	63.3/58.9	88.0/96.2
仅缓冲	60.6/63.6	31.0/53.0	30.1/59.3	36.2/68.9	28.3/53.9	60.3/77.2	40.2/87.3	37.5/78.8	45.1/77.0	27.0/52.3	44.7/90.2
仅重排序	63.0/63.9	45.0/54.6	38.8/64.4	41.5/72.6	36.8/56.6	64.0/79.9	58.3/92.4	52.8/80.3	69.5/77.8	38.3/55.8	63.2/94.0
无优化方法	47.8/63.4	27.8/53.4	22.9/62.5	29.6/73.3	21.7/56.2	49.2/79.0	31.6/91.3	29.1/80.4	37.7/77.9	24.5/56.4	36.7/94.1

下载: 导出CSV

| 显示表格

施工场景动态性强，人员除了大量的反复移动之外，姿态相较于普通行人场景更为丰富. 在动态更新机制作用下，视频帧率足够高，即使目标处于运动状态，目标帧间的变化也较小，帧间特征较为相似，确保了持续准确的匹配；此外，动态更新还能对重叠的特征进行过滤，减小目标框重叠导致的错误匹配. 重排序通过考虑特征序列之间相似度，进一步增强待检目标与其对应ID的相似性，从而提高匹配的准确性. 缓冲机制则在目标特征变化匹配失败时发挥作用，避免立刻分配新的ID，虽然可能会带来部分漏检，但提升了长时间追踪下的准确性.

5.4 坐标获取

俯视视角下选择图6所示的现场坐标系，利用柱中心点、梁梁节点中心点共9对参考点求解透视变换矩阵，得到施工人员的坐标和轨迹信息（图8），移动距离采样为每25帧一次，运动状态判定阈值为0.5 m，获得位置信息数据（表5），坐标精确到cm.

图 8 完整位置信息感知效果

Figure 8. Result of comprehensive location information perception

下载: 全尺寸图片幻灯片

表 5 运动数据获取结果

Table 5. Attained movement data

ID	移动距离/m	在场总时间/s	移动时间/s	平均速度/ （m•s⁻¹）
0	52.2	78.0	37.8	1.4
1	12.3	78.0	9.0	1.4
2	0.5	78.0	0.6	0.8
3	7.0	77.8	7.0	1.0
4	28.0	76.1	25.6	1.1
5	17.4	33.5	16.6	1.0

下载: 导出CSV

| 显示表格

5.5 结果讨论

本文提出的方法在施工场景下获得较高的追踪准确度，提升了追踪精度. 然后，在部分场景下仍存在漏检、误检、错误匹配等现象. 在小目标场景下（如图7（b）），目标检测易出现漏检，此时依靠后续数据关联并不能恢复目标框，而目标本身的行人外观特征也不明显，特别是目标处于蹲姿的情况下，易发生错误匹配. 此外，施工现场重叠较多，尤其是在平视且目标穿着相似的情况下. 如图9，在场景2平视视角下，3个相似目标出现了严重重叠，甚至是完全遮挡. 在遮挡后视野中出现穿着相似的新目标会引起ID切换. 一般情况下，遮挡后可利用行人重识别特征进行“重识别”，但在严重重叠的情况下，目标检测可能失效，且因外观高度相似，重识别特征也难保证准确匹配.

图 9 测试场景2中的错误匹配情况

Figure 9. Mismatch in scene 2

下载: 全尺寸图片幻灯片

为进一步改善追踪的效果，首先，针对小目标，可以优化目标检测网络以提升检测性能^[26]；其次，引入先验信息，例如根据现场布局或结构图纸预先标记可能的遮挡物，并预测重新出现的位置，同时结合多摄像头数据优化匹配结果；此外，还可考虑建立施工场景的行人重识别数据集，并融合多源数据进行开放世界人员重识别. 在算法效率方面，由于本文算法在有限硬件设备下未能实现实时图像处理，因此可以考虑采用轻量化行人重识别网络来提高算法的效率. 本文基于图像透视变换获取了现场真实坐标，但由于施工现场动态性较强、人员密集，并没有对获取的精度进行检验，未来可考虑结合传感器等设备对坐标精度进行验证.

6. 结　论

1）本文提出的基于行人重识别方法能够在不同施工场景下进行准确的人员追踪，并获得现场真实坐标与运动信息，在测试视频中，平均IDF1和MOTA分别为85.4%和75.4%.

2）所提出基于重排序的距离度量方法对目标序列排序结果进行了优化，提高了目标间相似性度量的准确性，有效提升了追踪的准确度.

3）提出的包含缓冲机制和动态更新机制的匹配后处理方法充分考虑了施工场景的动态性、复杂性，能够有效减少由于重叠、遮挡等带来的错误匹配.

图 1 算法流程示意

Figure 1. Algorithm procedure

下载: 全尺寸图片幻灯片

图 2 目标检测网络目标框损失变化曲线

Figure 2. Loss curves of target boxes for target detection network

下载: 全尺寸图片幻灯片

图 3 行人重识别算法网络结构

Figure 3. Network structure of person re-identification algorithm

下载: 全尺寸图片幻灯片

图 4 重排序示意

Figure 4. Re-ranking

下载: 全尺寸图片幻灯片

图 5 匹配结果后处理方法示意

Figure 5. Post-processing method for matching results

下载: 全尺寸图片幻灯片

图 6 透视变换示意

Figure 6. Perspective transformation

下载: 全尺寸图片幻灯片

图 7 不同场景视觉追踪效果

Figure 7. Visual tracking results in different scenes

下载: 全尺寸图片幻灯片

图 8 完整位置信息感知效果

Figure 8. Result of comprehensive location information perception

下载: 全尺寸图片幻灯片

图 9 测试场景2中的错误匹配情况

Figure 9. Mismatch in scene 2

下载: 全尺寸图片幻灯片

表 1 标准测试视频详细信息

Table 1. Details of standard test videos

编号	主要施工活动	视角	帧数/帧	目标数/个	难点
1	混凝土浇筑	平视	1479	10136	尺寸差异、遮挡
2	结构测设	平视	769	4606	尺寸差异、遮挡
3	混凝土浇筑	俯视	754	9803	夜间、遮挡
4	结构测设	俯视	616	8101	小目标、遮挡
5	钢筋绑扎	俯视	1230	26922	小目标、遮挡
6	混凝土浇筑	俯视	704	8427	夜间、小目标
7	混凝土模板搭设	俯视	1131	5656	姿态改变、背景复杂
8	预制柱吊装	俯视	1374	11220	动态性强、遮挡
9	预制板吊装	俯视	866	4221	动态性强、遮挡
10	脚手架搭建	俯视	497	6853	背景复杂
11	钢筋加工	俯视	632	3265	人员离开又重进入

下载: 导出CSV

表 2 软硬件配置详情

Table 2. Software and hardware configuration

项目	详情
监控设备	6 寸球机型号：DS-2DC6423IW-AE
CPU	Intel（R） Core（TM） i9-10900X @3.70 GHz
GPU	NVIDIA GeForce GTX 2080 Ti
操作系统	Ubuntu 20.04.3
编程环境	Python 3.8.8
深度学习框架	Pytorch 1.9.1 + cu102

下载: 导出CSV

表 3 不同算法在标准测试视频中的结果

Table 3. Performance of different algorithms on standard test videos %

算法	场景 1	场景 2	场景 3	场景 4	场景 5	场景 6	场景 7	场景 8	场景 9	场景 10	场景 11
DAN*^[20]	61.5/65.8	44.2/55.4	66.8/67.8	79.2/77.9	73.1/61.5	78.9/81.3	95.3/86.4	76.7/84.2	78.6/81.3	65.5/59.0	93.5/96.2
TraDeS^[21]	43.4/27.0	32.2/21.2	8.2/5.3	10.4/−10.8	8.8/−6.8	40.3/28.8	4.2/2.6	30.2/36.2	5.4/−0.7	10.5/2.8	40.4/16.6
FairMOT^[22]	48.7/47.0	51.4/54.0	18.4/13.5	47.9/40.5	12.0/0	61.9/45.0	10.1/9.6	29.1/33.6	28.2/18.2	11.6/5.7	49.8/43.5
Trackformer*^[23]	61.7/55.3	49.8/44.4	29.5/23.0	58.0/54.5	37.2/22.7	68.7/58.9	40.6/24.1	36.7/52.3	32.8/30.6	37.5/38.1	83.8/95.7
Unicorn^[24]	61.4/57.5	70.5/64.0	13.2/4.6	62.6/46.9	20.1/16.4	72.5/66.3	3.2/3.4	54.6/58.7	34.3/29.2	40.4/34.2	81.7/79.9
ByteTrack^[25]	73.4/63.7	67.3/62.4	64.6/58.2	82.1/73.5	38.5/29.6	77.6/71.2	33.4/31.1	61.8/67.1	52.6/54.1	47.0/34.4	83.0/75.8
本文算法*	78.0/66.0	73.3/57.1	82.4/67.8	87.2/77.7	78.0/63.1	89.1/81.6	97.8/95.6	91.8/84.8	90.5/81.5	73.8/58.3	97.5/96.4
注：带 * 的方法使用了相同的目标检测结果，最优结果加粗表示.

下载: 导出CSV

表 4 不同架构下追踪结果详情

Table 4. Tracking results with different architectures %

架构	场景 1	场景 2	场景 3	场景 4	场景 5	场景 6	场景 7	场景 8	场景 9	场景 10	场景 11
完整	78.0/66.0	73.3/57.1	82.4/67.8	87.2/77.7	78.0/63.1	89.1/81.6	97.8/95.6	91.8/84.8	90.5/81.5	73.8/58.3	97.5/96.4
无重排序	77.3/66.0	60.1/56.6	81.6/67.6	77.8/77.5	74.8/61.9	88.1/81.4	97.8/95.6	80.6/84.2	90.4/81.3	66.8/58.3	95.9/92.6
无缓冲	76.9/66.0	56.8/55.6	79.3/68.0	81.5/77.9	76.0/61.5	87.1/81.6	97.8/95.6	91.3/84.2	89.5/81.0	72.8/59.1	96.0/96.4
无动态更新	67.0/62.9	47.1/53.5	46.7/60.5	56.1/66.4	45.0/54.7	69.2/77.8	68.4/91.9	60.4/79.4	69.1/78.5	51.3/51.2	92.3/93.7
仅动态更新	70.0/65.9	55.5/55.5	76.4/67.9	74.0/77.7	64.7/61.5	84.5/81.5	93.9/95.6	78.0/84.1	81.4/81.1	63.3/58.9	88.0/96.2
仅缓冲	60.6/63.6	31.0/53.0	30.1/59.3	36.2/68.9	28.3/53.9	60.3/77.2	40.2/87.3	37.5/78.8	45.1/77.0	27.0/52.3	44.7/90.2
仅重排序	63.0/63.9	45.0/54.6	38.8/64.4	41.5/72.6	36.8/56.6	64.0/79.9	58.3/92.4	52.8/80.3	69.5/77.8	38.3/55.8	63.2/94.0
无优化方法	47.8/63.4	27.8/53.4	22.9/62.5	29.6/73.3	21.7/56.2	49.2/79.0	31.6/91.3	29.1/80.4	37.7/77.9	24.5/56.4	36.7/94.1

下载: 导出CSV

表 5 运动数据获取结果

Table 5. Attained movement data

ID	移动距离/m	在场总时间/s	移动时间/s	平均速度/ （m•s⁻¹）
0	52.2	78.0	37.8	1.4
1	12.3	78.0	9.0	1.4
2	0.5	78.0	0.6	0.8
3	7.0	77.8	7.0	1.0
4	28.0	76.1	25.6	1.1
5	17.4	33.5	16.6	1.0

下载: 导出CSV

参考文献(26)

[1]	PARK M W, BRILAKIS I. Continuous localization of construction workers via integration of detection and tracking[J]. Automation in Construction, 2016, 72: 129-142. doi: 10.1016/j.autcon.2016.08.039
[2]	LEE Y J, PARK M W. 3D tracking of multiple onsite workers based on stereo vision[J]. Automation in Construction, 2019, 98: 146-159. doi: 10.1016/j.autcon.2018.11.017
[3]	SON H, KIM C. Integrated worker detection and tracking for the safe operation of construction machinery[J]. Automation in Construction, 2021, 126: 103670.1-103670.11.
[4]	KONSTANTINOU E, LASENBY J, BRILAKIS I. Adaptive computer vision-based 2D tracking of workers in complex environments[J]. Automation in Construction, 2019, 103: 168-184. doi: 10.1016/j.autcon.2019.01.018
[5]	SON H, CHOI H, SEONG H, et al. Detection of construction workers under varying poses and changing background in image sequences via very deep residual networks[J]. Automation in Construction, 2019, 99: 27-38. doi: 10.1016/j.autcon.2018.11.033
[6]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2023-02-23]. http://arxiv.org/abs/2004.10934.
[7]	ANGAH O, CHEN A Y. Tracking multiple construction workers through deep learning and the gradient based method with re-matching based on multi-object tracking accuracy[J]. Automation in Construction, 2020, 119: 103308.1-103308.9.
[8]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2980-2988.
[9]	ZHANG Q L, WANG Z C, YANG B, et al. Reidentification-based automated matching for 3D localization of workers in construction sites[J]. Journal of Computing in Civil Engineering, 2021, 35(6): 04021019.1-04021019.18.
[10]	罗浩,姜伟,范星,等. 基于深度学习的行人重识别研究进展[J]. 自动化学报,2019,45(11): 2032-2049. LUO Hao, JIANG Wei, FAN Xing, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049.
[11]	YE M, SHEN J B, LIN G J, et al. Deep learning for person re-identification: a survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2872-2893. doi: 10.1109/TPAMI.2021.3054775
[12]	JOCHER G. YOLOv5 by ultralytics[CP/OL]. (2020-05)[2023-02-23]. https://github.com/ultralytics/yolov5.
[13]	AN X H, ZHOU L, LIU Z G, et al. Dataset and benchmark for detecting moving objects in construction sites[J]. Automation in Construction, 2021, 122: 103482.1-103482.18.
[14]	LUO H, GU Y Z, LIAO X Y, et al. Bag of tricks and a strong baseline for deep person re-identification [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach: IEEE, 2019: 1487-1495.
[15]	ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 1116-1124.
[16]	JIA J R, RUAN Q Q, JIN Y, et al. View-specific subspace learning and re-ranking for semi-supervised person re-identification[J]. Pattern Recognition, 2020, 108: 107568.1-107568.12.
[17]	GARCIA J, MARTINEL N, GARDEL A, et al. Discriminant context information analysis for post-ranking person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(4): 1650-1665. doi: 10.1109/TIP.2017.2652725
[18]	CROUSE D F. On implementing 2D rectangular assignment algorithms[J]. IEEE Transactions on Aerospace and Electronic Systems, 2016, 52(4): 1679-1696. doi: 10.1109/TAES.2016.140952
[19]	KIM D, LIU M Y, LEE S, et al. Remote proximity monitoring between mobile construction resources using camera-mounted UAVs[J]. Automation in Construction, 2019, 99: 168-182. doi: 10.1016/j.autcon.2018.12.014
[20]	SUN S J, AKHTAR N, SONG H S, et al. Deep affinity network for multiple object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 104-119.
[21]	WU J L, CAO J L, SONG L C, et al. Track to detect and segment: an online multi-object tracker[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE, 2021: 12347-12356.
[22]	ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3069-3087. doi: 10.1007/s11263-021-01513-4
[23]	MEINHARDT T, KIRILLOV A, LEAL-TAIXÉ L, et al. TrackFormer: multi-object tracking with transformers[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 8834-8844.
[24]	YAN B, JIANG Y, SUN P Z, et al. Towards grand unification of object tracking[C]//European Conference on Computer Vision. Cham: Springer, 2022: 733-751.
[25]	ZHANG Y F, SUN P Z, JIANG Y, et al. ByteTrack: multi-object tracking by associating every detection box[C]//European Conference on Computer Vision. Cham: Springer, 2022: 1-21.
[26]	朱军,张天奕,谢亚坤,等. 顾及小目标特征的视频人流量智能统计方法[J]. 西南交通大学学报,2022,57(4): 705-712,736. doi: 10.3969/j.issn.0258-2724.20200425 ZHU Jun, ZHANG Tianyi, XIE Yakun, et al. Intelligent statistic method for video pedestrian flow considering small object features[J]. Journal of Southwest Jiaotong University, 2022, 57(4): 705-712,736. doi: 10.3969/j.issn.0258-2724.20200425

施引文献

附加材料(0)

访问统计

点击查看大图

图(9) / 表(5)

计量

文章访问数: 146
HTML全文浏览量: 64
PDF下载量: 32
被引次数: 0

1. 算法整体流程
2. 目标检测
3. 基于行人重识别的数据关联
3.1 基于重排序的距离度量
3.2 匹　配
3.3 匹配结果后处理
4. 坐标获取
5. 实验验证与模型评价
5.1 实验案例概况
5.2 模型评价方法
5.3 视觉追踪
5.4 坐标获取
5.5 结果讨论
6. 结　论

基于行人重识别的施工现场人员位置信息感知

doi: 10.3969/j.issn.0258-2724.20230125

作者简介: 杨彬（1979—），男，副教授，博士，研究方向为智能建造，E-mail：yangbin@tongji.edu.cn

计量

出版历程

Location Information Perception of Onsite Construction Crew Based on Person Re-identification

1. 算法整体流程

2. 目标检测

3. 基于行人重识别的数据关联

3.1 基于重排序的距离度量

3.1.1 基于k最邻近的重排序

3.1.2 特征局部扩展

3.2 匹 配

3.3 匹配结果后处理

3.3.1 缓冲机制

3.3.2 特征动态更新机制

4. 坐标获取

5. 实验验证与模型评价

5.1 实验案例概况

5.2 模型评价方法

5.3 视觉追踪

5.4 坐标获取

5.5 结果讨论

6. 结 论

计量

出版历程

目录

1. 算法整体流程

2. 目标检测

3. 基于行人重识别的数据关联

3.1 基于重排序的距离度量

3.2 匹 配

3.3 匹配结果后处理

4. 坐标获取

5. 实验验证与模型评价

5.1 实验案例概况

5.2 模型评价方法

5.3 视觉追踪

5.4 坐标获取

5.5 结果讨论

6. 结 论

作者简介:
杨彬（1979—），男，副教授，博士，研究方向为智能建造，E-mail：yangbin@tongji.edu.cn

3.2 匹　配

6. 结　论

3.2 匹　配

6. 结　论