Extraction of Workers and Heavy Equipment and Muliti-Object Tracking using Surveillance System in Construction Sites

(1)

1. 서 론

건설업은 전체 산업에서 발생한 산업 재해 중 24.91%로 제조업(26.80%)보다 낮지만, 6개월 이상의 장기 요양재해자 수와 사망자 수가 각각 전체 산업군 재해자 19,178명 중 5,224명(36.34%), 총 사망자 2,020명 중 517명(25.59%)으로 가장 위험한 산업군에 속한다. 근로자 수 대비 업무상 재해율은 10.17%, 요양재해율은 10.94%이며 제조업은 각각 5.86%, 7.24%로 제조 업보다 높게 나타났다[1]. 이러한 건설 현장에서 무분별하게 발생하는 산업 재해를 예방하고 줄이기 위해 국토교통부는 2020년 아파트 건설 현장부터 CCTV(closed-circuit television) 설치 의무화를 진행하는 건설안전 혁신방안을 발표했다[2].

이에 안전 관리자는 작업장의 불안전 상태와 작업자들의 불안전 행동을 CCTV 시스템을 이용해 감시하고 이상징후를 발견 하여 현장 관리자에게 정보를 전달하여 조치하도록 하고 있다. 하지만 한 명의 안전 관리자가 많게는 수십 대의 CCTV 모니 터를 관제하고 있으며 이러한 업무 환경은 눈의 피로로 인해 업무 피로도가 매우 높고 실시간으로 여러 작업장의 모든 상황

https://doi.org/10.5345/JKIBC.2021.21.5.397 www.jkibc.org

Research Paper

건설 현장 CCTV 영상을 이용한 작업자와 중장비 추출 및 다중 객체 추적

Extraction of Workers and Heavy Equipment and Muliti-Object Tracking using Surveillance System in Construction Sites

조영운¹ㆍ강경수¹ㆍ손보식²ㆍ류한국³*

Cho, Young-Woon¹ㆍKang, Kyung-Su¹ㆍSon, Bo-Sik²ㆍRyu, Han-Guk³*

1Researcher, Construction Engineering and Management Institute, Sahmyook University, Seoul, 01795, Nowon-Gu, Seoul, 01795, Korea

2Professor, Department of Architectural Engineering, Namseoul University, Cheonan, Chungnam, 31020, Korea

3Professor, Department of Architectural, Sahmyook University, Nowon-Gu, Seoul, 01795, Korea

*Corresponding author Ryu, Han-Guk Tel : 82-2-3399-1853 E-mail :

[email protected]

Received : April 10, 2021 Revised : June 3, 2021 Accepted : June 10, 2021

ABSTRACT

The construction industry has the highest occupational accidents/injuries and has experienced the most fatalities among entire industries. Korean government installed surveillance camera systems at construction sites to reduce occupational accident rates. Construction safety managers are monitoring potential hazards at the sites through surveillance system; however, the human capability of monitoring surveillance system with their own eyes has critical issues. A long-time monitoring surveillance system causes high physical fatigue and has limitations in grasping all accidents in real-time. Therefore, this study aims to build a deep learning-based safety monitoring system that can obtain information on the recognition, location, identification of workers and heavy equipment in the construction sites by applying multiple object tracking with instance segmentation. To evaluate the system's performance, we utilized the Microsoft common objects in context and the multiple object tracking challenge metrics. These results prove that it is optimal for efficiently automating monitoring surveillance system task at construction sites.

Keywords : construction safety, computer vision, instance segmentation, multiple object tracking, surveillance system

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/

(2)

을 동시에 감시하는 것은 현실적으로 불가능해 주요 이상징후를 놓치는 경우가 많다[3,4]. 국회입법조사처의 보고서에 따르 면 관제요원이 20분 동안 지속해서 영상을 감시하면 화면에서 의미 있는 물체들을 45%에서 95%까지 놓칠 정도로 육안 관 제의 실효성이 떨어진다고 조사했다[5].

따라서 본 연구는 아파트 건설 현장의 안전 관리자가 설치된 CCTV를 이용해 효율적으로 안전관리를 수행할 수 있도록 딥러닝 기반 컴퓨터 비전 모형을 적용해 CCTV 영상에서 다중 클래스 다중 객체 추적 시스템을 개발하여 관제 업무를 돕고 자 한다. 최근 딥러닝의 발전으로 컴퓨터 비전의 성능이 인간의 인지능력과 비슷하거나 문제에 따라 더 나은 성능을 나타내 고 있다[6]. 그러므로 딥러닝 기술을 활용해 CCTV 관제 업무에서 인력의 개입을 최소화하여 모니터 화면상 관심 있는 객체 들을 자동으로 탐지하고 추적할 수 있다면 안전 관리자들이 숨은그림찾기처럼 관심 객체를 찾는 과정을 생략하고 안전관리 에 집중할 수 있다. 또한, 장시간의 관제 업무로 인한 피로도를 절감할 수 있어 CCTV를 활용한 효율적인 안전관리가 가능할 것으로 판단된다.

2. 선행연구

2.1 다중 객체 추적

다중 객체 추적은 연속된 프레임에서 움직이는 객체 중에서 관심 객체를 대상으로 현재 프레임에 대해 이전 프레임과 같 은 객체인지 판별하는 기법이다. 건설 현장에 다중 객체 추적을 적용한 연구들은 다음과 같다. Lee and Park[7]는 2대의 카메 라를 이용한 스테레오 카메라 시스템을 구축하고 건설 현장 내에 다중 작업자를 위치를 동시에 추적하기 위한 프레임워크를 제시했다. HOG(histogram of oriented gradient)와 Particle filter[8,9] 방법론을 결합하여 두 카메라의 이미지 평면에서 다중 작업자를 탐지 및 추적하고, 에피폴라 기하학(epipolar geometry)[10]과 작업자의 동작 방향을 활용해 두 평면에서 같은 작 업자 쌍을 매칭하였다. Zhao et al.[11]은 YOLOv3[12]로 작업자와 일반인을 탐지하고 칼만필터(Kalman filter)[13]와 헝가 리안 알고리즘(Hungarian algorithm)[14]을 적용해 건설 현장에서 작업자의 궤도(trajectory)를 추적하는 시스템을 개발했 다. Ishioka et al.[15]은 안전관리와 생산성을 위해 세 가지 단계로 구성하여 수행하였다. 먼저, Faster R-CNN(region-based convolutional neural networks)으로 작업자를 탐지하고 SORT로 동일 작업자를 추적한 뒤, 마지막으로 바운딩 박스 좌표로 패치를 잘라내 행동 인식을 수행하여 걷기, 웅크리기, 운반하기 등 작업자의 행동을 분석하였다. Angah and Chen[16]은 영상 에서 인스턴스 세그먼테이션 모형을 적용하고 작업자를 추적하였다. 해당 연구는 2D Mask R-CNN과 3D Mask R-CNN[17]

를 이용하여 작업자의 바운딩 박스 좌표를 추출하고 Gradient based 기법으로 작업자를 매칭한 뒤, 추적에 실패한 작업자 (unmatched detection)를 다시 추적하기 위해 이전 프레임과 현재 프레임 비교를 통해 일치하지 않는 객체를 재매칭하였다.

하지만 기존 연구들은 단일 클래스에 관한 다중 객체 추적만 수행하여 건설 현장의 다양한 클래스를 동시에 추적하지 못한 한계점이 나타났다. 건설 현장은 작업자들뿐만이 아니라 중장비와 같은 클래스들을 가진 객체들이 혼재되어 객체끼리 간의 상호작용 때문에 업무상 재해가 발생하는 환경이다. 따라서 본 논문은 단일 클래스가 아닌 다중 클래스를 대상으로 다중 객 체 추적을 동시에 수행하는 시스템을 개발한다.

2.2 딥러닝 기반 컴퓨터 비전 모형

최근 건설 분야에 딥러닝 기반 컴퓨터 비전 모형들을 적용하거나 시스템 개발을 시도하는 연구가 증가하고 있다. 특히 건 설 현장을 중심으로 활발하게 적용되고 있는 대표적인 컴퓨터 비전 기법은 객체 탐지와 인스턴스 세그먼테이션이다. 객체 탐지는 이미지에서 특징을 추출하여 객체가 무엇인지 인식하고 위치를 경계 상자(bounding box)로 예측하는 작업이다. 건

(3)

설 현장에 딥러닝 기반 객체 탐지 모형들을 적용한 연구들은 다음과 같다. Nath et al.[18]은 YOLOv3를 이용해 작업자, 안전 모, 안전 조끼를 탐지하고 작업자가 안전 보호구(personal protective Equipment, PPE)를 착용했는지 판단할 수 있는 시스템 을 제안했다. 탐지된 객체의 경계 상자 좌표를 기준으로 특징을 잘라내어 전통적인 머신러닝 기법과 CNN 모형으로 작업자 의 PPE 착용 여부를 분류하는 모형 비교 실험했다. Son et al.[19]은 지속적으로 변화하는 건설 현장 배경에 설치된 이동식 카 메라에서 다양한 포즈의 작업자의 인식과 위치를 추출하기 위해 Faster R-CNN[20]을 적용하였다. 또한, ResNet-152을 베이 스라인으로 ZFNet, ResNet-50 등 다양한 백본(backbone)으로 학습한 탐지기의 성능을 비교·분석하였다. 동적인 환경에서 깊은 층을 가진 신경망이 좋은 성능을 낼 수 있음을 보여주었다. Guo et al.[21]은 UAV(unmanned aerial vehicle)를 이용해 수집한 이미지에서 건설 중장비를 탐지하기 위해 OAFF-SSD(orientation-aware feature fusion single-stage detection) 네트 워크를 제안하였다. 제안된 네트워크는 OABB(orientation-aware bounding box)로 탐지가 가능한 FSSD[22] 모형을 확장한 개념으로 방향성을 가진 경계 상자로 기존 경계 상자와 같은 탐지된 영역의 공간을 줄이고 정확성으로 작은 객체들을 겹침 없이 탐지할 수 있음을 확인하였다. 하지만 연구자들은 이미지와 영상에서 객체의 인식과 위치뿐만 아니라 객체의 형태 추 출하여 공간 분석을 용이하기 위해 인스턴스 세그먼테이션을 도입하고 있다.

인스턴스 세그먼테이션은 이미지 세그먼테이션의 한 종류로 시멘틱 세그먼테이션(semantic segmentation)과 달리 객체 로 경계를 나누지 않고 개체별로 경계를 분할하는 모형이다[23,24]. Truong et al.[25]는 건설 현장에서 작업자들의 안전을 위해 PPE를 인스턴스 세그먼테이션 기법을 적용해 탐지하였다. Yang et al.[26]는 건설 현장의 안전관리를 위해 타워크레인 에서 현장을 내려다보는 탑뷰(top view) 시점으로 타워크레인의 훅과 훅이 내려오는 위험 지역 그리고 지상에 있는 작업자 를 Mask R-CNN을 이용해 픽셀 단위 기준으로 안전거리를 측정하였다.

객체 탐지를 적용한 기존 연구들은 네 개의 좌표를 가진 경계 상자로 인해 공간분석에 한계가 존재한다. 폴리곤 마스크와 달리 낭비되는 공간이 생기는 것을 의미한다. 이러한 경계 상자의 공간을 줄이기 위해 OABB와 같은 방법들이 개발되었지 만, 여전히 폴리곤 마스크와 비교해 한계가 있다. 따라서 본 연구는 다중 클래스 다중 객체 추적을 위해 선행되는 탐지기로 인스턴스 세그먼테이션을 선택하였다. 또한, two-stage 기반 모형보다 안전은 실시간성이 요구되기 때문에 one-stage 탐지 기 기반의 모형을 적용하고자 한다.

3. 연구방법

3.1 연구 절차

본 연구는 건설 현장에서 안전 관리자가 PTZ 카메라 기반 CCTV 영상에서 작업자와 중장비를 추적하기 위해 Figure 1과 같이 진행하였다. 본 논문은 건설 현장에 설치된 CCTV 화면에서 다양한 관심 객체를 자동으로 탐지하고 추적하는 시스템 을 개발하기 위해 다음과 같이 세 가지 단계로 수행한다. 첫째, 영상 및 이미지 데이터 수집과 레이블링 작업 후 학습·평가 데 이터셋을 생성한다. 둘째, 딥러닝 기반 컴퓨터 비전 기술 중, 인스턴스 세그먼테이션(instance segmentation) 모형을 적용하 고 CCTV 화면 내 객체들의 구분, 위치, 형태에 관한 성능을 평가한다. 셋째, 인스턴스 세그먼테이션 모형에 다중 객체 추적 (multi object tracking, MOT) 알고리즘을 다중 클래스가 가능하도록 개발하고 화면 내 작업자, 중장비를 동시에 추적할 수 있는 시스템을 현장에 적용한다.

(4)

Figure 1. The Flow chart of our research

3.2 데이터 수집 및 레이블링

다중 클래스 다중 객체 추적의 탐지기로 인스턴스 세그먼테이션 모형을 이용하여 영상 내 개체들의 폴리곤 마스크(모양), 경계 상자(위치), 클래스 정보를 추출하기 위해 자체 데이터셋을 구축하였다. 건설 관련 이미지와 영상은 실제 건설 현장에 서 PTZ 카메라로 촬영한 영상, 웹 크롤링, 직접 현장에서 촬영한 이미지를 사용했다. 웹 크롤링으로 수집한 데이터에서 저해 상도(250픽셀 이하), 중복, 라이선스 이미지를 제거하고 오픈소스 어노테이션 도구인 labelme[27]를 사용하였다. 폴리곤 어 노테이션은 객체 탐지 모형뿐만 아니라 다양한 컴퓨터 비전 모형에 적용할 수 있고 객체 탐지 모형을 위한 경계 상자를 간단 한 공식으로 생성할 수 있는 장점이 있다. 그러나 네 개의 좌표만 필요한 경계 상자와 달리 객체의 윤곽선을 따라 많게는 수 백 개의 좌표를 찍어야 해서 시간적 비용이 매우 높은 단점이 존재한다. 모형 학습에 사용된 데이터셋은 총 1,268개의 이미 지로 구성되어 있다. 학습에 사용된 데이터셋의 구성은 Table 1과 같다.

Table 1. Summary of construction dataset

Class Number of objects Number of Images

Worker(C1) 2,453(69.99) 719(51.65)

Concrete mixer truck(C2) 443(12.64) 280(20.11)

Dump truck(C3) 609(17.38) 393(28.23)

다중 클래스 다중 객체 추적의 성능을 평가하기 위해 PTZ 카메라에서 수집한 세 가지 영상 데이터를 선정하였다. 각 영상 의 프레임 레이트는 30이며 데이터는 전체 길이를 계산하고 다시 단일 프레임으로 나눠 경계 상자와 개별 고유 ID를 할당했 다. 객체 추적 알고리즘 성능 평가에 사용될 평가 데이터셋의 요약은 Table 2와 같다.

Table 2. Summary of ground truth videos for evaluating multiple object tracking

Video Video description No. of frames Classes

# 1 Dump truck wheel wash 600(20s) C3

# 2 Rebar work 300(10s) C1

# 3 Concrete pouring 300(10s) C1, C2

(5)

3.3 YOLACT

YOLACT는 Bolaya et al.[28]이 제안한 one-stage 인스턴스 세그먼테이션 모형으로써 실시간(30 FPS 이상) 추론 속도를 달성한 최초의 모형이다. YOLACT는 크게 프로토타입(prototype) 마스크와 예측 헤드에서 tanh 활성화 함수로 후처리한 마 스크 계수(maks coefficient)를 생성하는 작업을 병렬처리하여 기존 RoIs(region of interests)를 제안하는 two-stage 방식의 인스턴스 세그먼테이션 모형보다 빠른 속도로 추론할 수 있다. YOLACT의 기본 구성은 백본(backbone)으로 ResNet-101, 넥(neck)으로 FPN(feature pyramid networks)[29]을 사용한다. 추론 단계에서 사용되는 전통적인 NMS(non-maximum suppression)보다 행렬 연산을 통해 병렬처리가 가능해 계산비용을 줄인 Fast-NMS를 제안했다. YOLACT는 다른 인스턴스 세그먼테이션 모형과 다르게 경계 상자를 추정할 수 있는 예측 헤드(prediction head)가 있어 MOTS(multiple object tracking and segmentation)[30] 대신 경계 상자용 MOT를 적용할 수 있다.

3.4 SORT

다중 객체 추적은 영상에서 수많은 객체를 구분하고 개별 고유 ID를 할당하는 기법이다. 객체 추적은 오프라인(offline)과 온라인(online) 추적으로 분류할 수 있다. 온라인은 현재 프레임과 직전 프레임만 사용해 객체를 추적하고 오프라인은 전체 프레임 즉, 현재에 과거 또는 미래의 모든 프레임을 사용해 추적하는 방식이다[31]. 본 연구는 탐지기에서 예측한 객체들의 경계 상자를 이용해 추적하는 SORT(simple online and real-time tracking)의 작동 프로세스는 Figure 2과 같다.

Figure 2. Flowchart of for multiple object tracking with instance segmentation at construction site

SORT의 작동 방식은 다음과 같다. 첫째, SORT의 입력으로 건설 이미지 데이터를 학습한 YOLACT가 해당 프레임에서 예측한 객체의 위치인 와 해당 위치에 객체가 존재하는지에 대한 신뢰도(confidence score)를 받는다. 둘째, 추적은

^과 같이 객체의 중심 좌표, 객체의 크기, 종횡비(aspect ratio)로 변환하고 첫 프레임으로 초기 상태를 제외한 두 번째 프레임부터 과거 시점에서 칼만 필터로 현재 상태를 추정한다. 모형에서 예측한 값과 차이를 반영하여 현재 상태 변수를 업데이트한다. 각 트랙은 칼만 필터로 추정할 때마다 age가 증가하며 트랙이 현 상태와 연관이 있을 때 age를 0으로 재설정한다. 사전 정의된 maximum age를 초과하는 트랙은 해당 장면을 떠난 것으로 간주하고 트랙에서 삭제한다. 기존 트 랙과 연관이 없는 객체는 새로운 트랙으로 정의하고 파라미터로 설정한 프레임 동안 측정이 성공한다면 트랙으로 기록하 고 측정되지 않으면 트랙에서 삭제한다. 3) 추적된 객체와 인스턴스 세그먼테이션 모형에서 새로 예측한 객체 사이를 IoU(intersaction of union) 거리(distance)로 계산하여 비용 행렬(cost matrix)을 생성한다. 이를 헝가리안 알고리즘으로 최적 화하여 객체마다 고유 번호를 할당한다. 본 연구에서는 SORT의 파라미터 maxmimum age는 3, minimum hit는 3 그리고 IoU 임계값은 0.3으로 설정했다[32]. SORT는 다중 객체를 추적을 할 수 있는 기능이 있지만, 오직 단일 클래스만 추적할 수 있다. 따라서 본 연구는 CCTV 영상에서 다중 객체뿐만 아니라 동시에 다수의 클래스를 추적하기 위해 SORT를 개선하였

(6)

다. 실시간 영상 내에 모든 클래스는 동시에 같은 시간의 프레임 카운트를 공유하지만 프레임마다 YOLACT에서 출력 경계 상자를 클래스별로 필터링한 뒤 SORT를 개별적으로 운용하는 방식으로 수정하였다.

3.5 모형 성능 평가 방법

3.5.1 인스턴스 세그먼테이션 평가지표

인스턴스 세그먼테이션의 성능을 확인하기 위해 사용한 MS COCO 평가지표는 객체 탐지, 시멘틱 세그먼테이션, 인스턴 스 세그먼테이션, 키포인트(keypoint) 등 다양한 컴퓨터 비전 모형을 평가하기 위해 만들어졌다. 과거 Pascal VOC[33] 평가 지표는 실측 경계 상자와 예측된 경계 상자 면적을 IoU 0.5 이상을 모두 평가하지만, MS COCO 평가지표는 IoU 임곗값을 0.5에서 0.95 사이 0.05씩 10개로 설정한 뒤, 각 IoU의 AP(average precision)를 계산해 평균을 내기 때문에 실측값과 예측값 의 비교를 더욱 신뢰도 있게 다양한 지표로 확인할 수 있다. 또한, 객체의 크기를 세 가지로 분류해 크기마다 모형의 성능을 평가할 수 있다. AP를 계산하기 위한 Precision과 Recall 결과값이 필요하다. 이미지 분류기의 평가와 다르게 예측 경계 상자 와 실측 경계 상자 간 IoU를 계산하여 설정한 임계 값 이상 겹친 경계 상자만 사용하여 TP(true positive), FP(false positive), FN(false negative)을 구한다. TP는 옳은 검출, FP는 틀린 검출, FN은 검출되어야할 객체가 검출되지 않음을 의미한다.

Precision은 검출 결과 중 옳게 검출된 비율이며, Recall을 검출된 결과물 중 옳다고 예측한 객체들의 비율을 의미한다. AP는 다음 precision-recall 곡선(PR curve)을 기반으로 PR 곡선의 아래 면적을 계산하여 식(4)와 같다. PR 곡선을 단조적으로 감 소하는 그래프로 변경한 후 그래프 선 아래 넓이를 계산해 AP를 구하며, 탐지해야 할 클래스가 여러 개일 경우 클래스마다 AP를 구한 다음 평균을 사용하여 모형의 성능을 평가한다[34].

3.5.2 다중 객체 추적 평가지표

다중 클래스 다중 객체의 추적 성능을 확인하기 위해 사용한 MOT 평가기법은 Table 3과 같다. MOT Challenge는 교차로, 광장, 쇼핑몰 등 다양한 거리와, 높은 앵글, 낮은 앵글, 움직이는 플랫폼, 차량 운전자 시점 등 다양한 뷰포인트(viewpoint)에 서 촬영된 보행자들의 영상 데이터로 개발한 추적 알고리즘 성능을 평가할 수 있는 시스템을 제공한다. 대표적인 평가지표 인 MOTA는 식 (1)와 같다.

Table 3. Description of MOT challenge evaluation metrics

Evaluation Metric Description Better

MOTA Multiple-object tracking accuracy ↑

MOTP Multi-object tracking localization precision ↑

FP Number of false positive ↓

FN Number of false negative ↓

Recall Fraction of relevant instances were retrieved ↑

Precision Fraction of relevant instances among the retrieved instances ↑

GT Total number of unique ground truth object IDs encountered -

MT Number of mostly tracked trajectories. ↑

IDs Number of times an ID switches to a different previously tracked object ↓

    ∑

∑___

(1)

(7)

는 프레임, GT(ground truth)는 전체 프레임의 총 실측 객체 수이다, FN은 전체 프레임 기준으로 놓친 타겟의 총 개수, 즉 실측 경계 상자에 객체가 하나 이상 포함되어 있지만, 예측 경계 상자에 객체가 존재하지 않거나 예측한 객체가 실측값 객체 의 경계 상자에 포함되지 않은 총횟수다. IDs는 객체 간 ID가 전환된 횟수를 뜻한다[35,36,37]. 본 연구는 건설 현장의 다중 클래스 다중 객체를 추적함으로써 모든 테스트 영상의 각 클래스에 대한 MOT 평가지표들을 산출하였다.

4. 실험 결과 및 논의

4.1 인스턴스 세그먼테이션 실험 결과

본 연구는 YOLACT 모형을 학습시키기 위해 Ubuntu 20.04, 엔비디아 V100(32GB) 네 대, 램 128GB 환경에서 수행하였 다. 학습에 사용된 라이브러리는 PyTorch를 기반으로 자체 개발한 인스턴스 세그먼테이션 라이브러리 boda[38]를 사용하 였다. 하이퍼 파라미터는 ResNet-101을 백본으로 인풋 크기는 550×550, 종횡비는 [1:1, 1:2, 2:1], 스케일은 [24, 48, 96, 192, 384]이다. Figure 3(a)는 YOLACT의 프로토타입 네트워크가 마스크를 생성하는 과정을 시각화한 것이며 정량평가 결과는 Table 4와 같다. 프로토타입 생성 과정에서 첫 번째 영상 덤프트럭보다 두 번째 영상 작업자들보다 크기 때문에 모형이 잘 인 식하는 것을 볼 수 있다. 그러나 세 번째 콘크리트 타설 작업 영상에서 콘크리트 믹서 트럭은 잘 인식하나 작업자들은 상대적 으로 작은 크기로 특징이 약해 성능이 낮다. 이는 학습용 데이터셋에 32×32 이하의 객체를 가진 데이터가 적기 때문이다.

Figure 3(b) 좌측 상단 시각화 결과에서 현장 게이트 중앙에 있는 경비원을 인식하지 못한다. 데이터셋에 안전모를 착용하지 않는 일반인 특징이 없기 때문이다. 좌측 아래의 경우, 콘크리트 펌프 트럭과 덤프트럭의 앞모습이 비슷하게 생겨 덤프트럭 으로 잘못 예측되었다. 두 가지 경우는 모두 해당 데이터의 특징이 없으므로 모형이 구분하지 못한 사례이다.

Figure 3. Examples of YOLACT qualitative visual result (a) ProtoNet inference (b) failure results on test samples

학습된 탐지기의 MS COCO 표준 지표 [0.5,0.95] mAP는 0.599이다. IoU 0.5에서 0.95로 갈수록 엄격해지는 평가이기 때 문에 전체적인 성능은 Pascal VOC AP 0.792보다 훨씬 떨어진다. 32×32보다 작은 콘크리트 믹서 트럭과 덤프트럭은 테스트 데이터셋에 존재하지 않아 0으로 도출되었다.

(8)

Table 4. Average precision(AP) for each construction object category under different IoU threshold, and object sizes

Class _{  } _ _ _ _ _

C1 0.461 0.741 0.471 0.091 0.340 0.638

C2 0.640 0.8370.699 0.000 0.295 0.735

C3 0.695 0.798 0.771 0.000 0.344 0.802

Overall 0.599 0.792 0.647 0.030 0.326 0.725

4.2 다중 클래스 다중 객체 추적 실험 결과

Table 5는 건설 현장 작업자, 중장비에 고유 번호를 할당하기 위해 적용한 SORT의 성능을 MOT 평가지표로 요약한 결과 이다. 연속된 프레임 내에서 SORT 알고리즘의 성능은 YOLACT의 성능에 종속적이기 때문에 학습된 YOLACT 모형의 탐 지 성능이 떨어지면 SORT의 성능도 동시에 감소한다.

Table 5. Result of multiple object tracking evaluation for each video clips derived from SORT

Video(Class) MOTA MOTP FP FN Recall Precision MT(GT) IDs*

# 1(C3) 0.689 0.869 200 250 0.8270.857 3(2) 0

# 2(C1) 0.980 0.783 24 12 0.993 0.987 6(6) 0

# 3(C1) 0.453 0.711 583 556 0.735 0.726 4(7) 10

# 3(C2) 0.993 0.836 3 3 0.9970.997 3(3) 0

*IDs stands for switching ID, C1: Worker, C2: Concrete Mixer Truck, C3: Dump Truck

Figure 4는 SORT 평가용 영상으로 Modified SORT의 예측 결과를 동시에 시각화한 것이다. MOT 정량평가 결과에 따르 면, 첫 번째 영상인 덤프트럭 추적 MOTA는 0.689이며 IDs는 0, MT는 3, GT 3이다. Figure 4(a)의 좌측 상단에 있는 덤프트 럭일 경우, 모형이 예측하지 못해 SORT의 성능이 낮은 것으로 나타났다. Figure 4(c)은 콘크리트 타설 작업 영상을 시각화한 것으로 콘크리트 믹서 트럭과 작업자를 동시 추적한 것이다.

Figure 4. Multi-object tracking results at the first frame of the test videos (a) dump truck tracking result at wheel wash system (b) worker tracking at rebar workplace (c) Multi class multi object tracking results of concrete pouring work. The red colored object indicates tracking failure

작업자의 MOTA는 0.453이며, 콘크리트 믹서 트럭은 0.993으로 해당 영상은 콘크리트 믹서 트럭은 정차한 경우로 상대 적으로 매우 성능이 좋으나 작업자의 경우 콘크리트 작업자의 경우 행동이 많아 영상 중간 다양한 포즈를 취하기 때문에 추

(9)

적을 실패하는 경우가 있다. 또한, 천막 아래에서 나타는 작업자의 경우 상반신은 보이지 않기 때문에 추적이 간헐적으로 끊 어지며, 하단의 안전모만 나와 있는 작업자는 객체의 크기가 28×32로 이하로 훈련용 데이터셋에는 해당 특징을 가진 데이터 가 없으므로 탐지가 이루어지지 않아 MOTA 전체적인 성능이 떨어지고 ID 교체가 자주 일어난다.

4.3 실혐 결과 논의

기존 연구의 경우 사용한 모형의 MS COCO 벤치마크 데이터셋 정량평가 결과나 SOTA(state of the art)를 비교하여 평가 한다. 그러나 커스텀 데이터셋과 대규모 데이터셋인 MS COCO의 경우 클래스 80개, 16만 장의 이미지로 구성된 모형들과 1:1 비교를 한다는 것은 불가능하다. 또한, 기존 연구는 단일 영상에서 프레임을 나눠 학습용 데이터셋과 검증용 데이터셋으 로 나누기 때문에 아웃 오브 샘플(out of samples)이 아닌 비슷한 배경과 비슷한 객체의 크기, 자세, 뷰포인트로 인해 과적합 으로 성능이 좋게 나오는 거로 사료된다[39]. 탐지기를 학습할 때 하이퍼 파라미터 튜닝이 중요하며 대표적으로 기본 스케 일 값을 k-means clustering으로 [28, 34, 128, 256, 512]로 조정하여 학습한 결과 mAP는 0.612로 성능이 증가되었다. SORT 의 객체 추적 성능 평가에서 알 수 있듯이 다중 객체 추적 온라인 방법은 객체를 탐지하는 탐지기의 성능에 의존한다. 세 번 째 영상에서 콘크리트 믹서 트럭은 가장 높은 MOTA를 달성했다. 하지만 영상 내 작업자일 경우 객체의 크기가 작아 지속적 인 탐지가 어려워 성능이 낮아졌다. 첫 번째 영상인 덤프트럭의 경우, 콘크리트 믹서 트럭과 덤프트럭의 정면이 비슷하게 생 겼기 때문에 덤프트럭이 특징인 버킷이 나타나기까지 해당 모형이 예측을 수행하지 못해 나타난 현상이다. 따라서 PTZ 카 메라 기반 CCTV를 이용해 안전 관제 업무를 수행하는 안전 관리자들을 대상으로 현장 인터뷰를 진행한 결과, 작업자와 중 장비를 탐지하고 추적할 수 있는 시스템이 CCTV의 라이브 스트리밍 프레임 레이트에 맞게 실시간으로 작동한다면 충분한 안전관리를 보다 효율적으로 진행할 수 있는 것으로 파악되었다.

5. 결 론

본 연구는 건설 현장에 설치된 CCTV를 통해 안전 관리자가 수행하는 관제 업무의 효율을 극대화하기 위해 인스턴스 세 그먼테이션인 YOLACT 모형과 다중 객체 추적 기법인 SORT를 다중 클래스로 추적할 수 있게 적용하였다. 다중 객체 추적 성능 평가용 데이터셋을 구축하기 위해 PTZ 카메라로 녹화된 테스트베드 영상을 프레임 단위로 나누어 경계 상자로 고유 번호를 할당하고 구축하였다. 다양한 시점, 각도, 자세 등을 고려해 구축한 건설 이미지 데이터셋으로 학습한 YOLACT의 모형은 새로운 영상에서도 과적합 없이 일정 수준 이상의 성능을 나타냈다. 다중 객체 추적 기법인 SORT를 다중 클래스도 추적할 수 있도록 개선하여 파이프라인에 적용하였다. 객체 추적 기법의 성능은 본 연구에서 작은 개체에 대한 레이블링이 적은 특징으로 학습한 YOLACT의 성능에 의존하기 때문에 작은 객체나 특징이 겹치는 객체들에서 성능이 떨어지는 한계 점이 있다. 실험 결과를 토대로 향후 성능 향상을 위해 지속해서 데이터를 수집하고 최신 모형과 작업자들의 불안전 행동과 같은 이상징후를 판별할 수 있는 알고리즘을 연구·개발하고자 한다.

요 약

건설업은 업무상 재해 발생빈도와 사망자 수가 다른 산업군에 비해 높아 가장 위험한 산업군으로 불린다. 정부는 건설 현 장에서 발생하는 산업 재해를 줄이고 예방하기 위해 CCTV 설치 의무화를 발표했다. 건설 현장의 안전 관리자는 CCTV 관 제를 통해 현장의 잠재된 위험성을 찾아 제거하고 재해를 예방한다. 하지만 장시간 관제 업무는 피로도가 매우 높아 중요한 상황을 놓치는 경우가 많다. 따라서 본 연구는 딥러닝 기반 컴퓨터 비전 모형 중 개체 분할인 YOLACT와 다중 객체 추적 기

(10)

법인 SORT을 적용하여 다중 클래스 다중 객체 추적 시스템을 개발하였다. 건설 현장에서 촬영한 영상으로 제안한 방법론의 성능을 MS COCO와 MOT 평가지표로 평가하였다. SORT는 YOLACT의 의존성이 높아서 작은 객체가 적은 데이터셋을 학습한 모형의 성능으로 먼 거리의 물체를 추적하는 성능이 떨어지지만, 크기가 큰 객체에서 뛰어난 성능을 나타냈다. 본 연 구로 인해 딥러닝 기반 컴퓨터 비전 기법들의 안전 관제 업무에 보조 역할로 업무상 재해를 예방할 수 있을 것으로 판단된다.

키워드 : 건설안전, 컴퓨터 비전, 인스턴스 세그먼테이션, 다중 객체 추적, 추적 시스템

Funding

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government (MSIT)(No. 2020R1A2B5B01001609).

ORCID

Young-Woon Cho, http://orcid.org/0000-0001-8883-2570 Kyung-Su Kang, https://orcid.org/0000-0002-6955-578X Bo-Sik Son, https://orcid.org/0000-0002-0900-4601 Han-Kuk Ryu, https://orcid.org/0000-0001-6101-560X

References

1. Kim D. Occupational accident/injury analysis 2009. Ulsan (Korea): Korea Occupational Safety and Health Agency; 2021 Jan;15-22. Grant No.: 118006 Supported by KOSTAT.

2. Kim H. Construction safety innovation plan: Reinforcement of management of vulnerable construction, etc [Internet]. Sejong (Korea): Ministry of Land, Infrastructure and Transport. 2020 Apr 24 [cited 2021 Apr 7]. Available from: http://www.

molit.go.kr/USR/NEWS/m_71/dtl.jsp?id=95083805

3. Heejung. Women who "watch the monitor" [Internet]. Seoul (Korea): Ildaro. 2019 Aug 30 [cited 2021 Apr 7]. Available from:

https://ildaro.com/8536

4. Park Y. Only one person monitors 438 CCTVs [Internet]. Seoul (Korea): Munhwa Ilbo. 2017 Nov 28 [cited 2021 Apr 7].

Available from: http://www.munhwa.com/news/view.html?no=2017112801031627109001

5. Choi M, Choi J. CCTV integrated control center operation status and improvement plan legislative policy report. Seoul, Korea:

National Assembly Research Service, NARS; 2019. p. 1-33.

6. LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD. Backpropagation applied to handwritten zip code recognition. Neural computation. 1989 Dec;1(4):541-51. https://doi.org/10.1162/neco.1989.1.4.541

7. Lee YJ, Park MW. 3D tracking of multiple onsite workers based on stereo vision. Automation in Construction. 2019 Feb;98:146-59. https://doi.org/10.1016/j.autcon.2018.11.017

8. Dalal N, Triggs B. Histograms of oriented gradients for human detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition; 2005 Jun 20-25; San Diego, CA. NJ: Institute of Electrical and Electronics Engineers; 2005. p. 886-93. https://doi.org/10.1109/CVPR.2005.177

9. Park MW, Brilakis I. Continuous localization of construction workers via integration of detection and tracking. Automation in

(11)

Construction. 2016 Dec;72:129-42. https://doi.org/10.1016/j.autcon.2016.08.039

10. Zhang Z. Determining the epipolar geometry and its uncertainty: A review. International journal of computer vision. 1998 Mar;27(2):161-95. https://doi.org/10.1023/A:1007941100561

11. Zhao Y, Chen Q, Cao W, Yang J, Xiong J, Gui G. Deep learning for risk detection and trajectory tracking at construction sites.

IEEE Access; 2019 Mar;7:30905-12. https://doi.org/10.1109/ACCESS.2019.2902658

12. Redmon J, Farhadi A. Yolov3: An incremental improvement. arXiv:1804:02767 [Preprint]. 2018 [cited 2021 Apr 8]. Available from: https://arxiv.org/abs/1804.02767

13. Kalman RE. A new approach to linear filtering and prediction problems. 1960 Mar;82(1):35-45. https://doi.org/10.1115/

1.3662552

14. Kuhn HW. The Hungarian method for the assignment problem. Naval research logistics quarterly. 1955 Mar;2(1‐2):83-97.

https://doi.org/10.1002/nav.3800020109

15. Ishioka H, Weng X, Man Y, Kitani K. Single camera worker detection, tracking and action recognition in construction site.

Proceedings of the 37th International Symposium on Automation and Robotics in Construction (ISARC); 2020 Oct;

Kitakyushu, Japan. FL: International Association for Automation and Robotics in Construction (IAARC); 2020. p. 653-60.

https://doi.org/10.22260/ISARC2020/0092

16. Angah O, Chen AY. Tracking multiple construction workers through deep learning and the gradient based method with re- matching based on multi-object tracking accuracy. Automation in Construction. 2020 Nov;119:103308. https://doi.org/

10.1016/j.autcon.2020.103308

17. He K, Gkioxari G, Dollár P, Girshick R. Mask R-CNN. 2017 IEEE International Conference on Computer Vision (ICCV);

2017 Oct 22-29; Venice, Italy. NJ: Institute of Electrical and Electronics Engineers; 2017. p. 2961-9. https://doi.org/10.1109/

ICCV.2017.322

18. Nath ND, Behzadan AH, Paal SG. Deep learning for site safety: Real-time detection of personal protective equipment.

Automation in Construction. 2020 Apr;112:103085. https://doi.org/10.1016/j.autcon.2020.103085

19. Son H, Choi H, Seong H, Kim C. Detection of construction workers under varying poses and changing background in image sequences via very deep residual networks. Automation in Construction. 2019 Mar;99:27-38. https://doi.org/10.1016/j.autcon.

2018.11.033

20. Ren S, He K, Girshick R, Sun J. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence. 2017 Jun;39(6):1137-49. https://doi.org/10.1109/TPAMI.2016.

2577031

21. Guo Y, Xu Y, Li S. Dense construction vehicle detection based on orientation-aware feature fusion convolutional neural network. Automation in Construction. 2020 Apr;112:103124. https://doi.org/10.1016/j.autcon.2020.103124

22. Li Z, Zhou F. FSSD: feature fusion single shot multibox detector. arXiv:1712.00960 [Preprint]. 2017 [cited 2021 Apr 12].

Available from: https://arxiv.org/abs/1712.00960

23. Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention. 2015 Oct 5; Munich, Germany. MN: The Medical Image Computing and Computer Assisted Intervention Society; 2015. p. 234-41. https://doi.org/10.1007/978-3-319- 24574-4_28

24. Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017 Apr;39(4): 640-51. https://doi.org/10.1109/TPAMI.2016.2572683

25. Truong T, Bhatt A, Queiroz L, Lai K, Yanushkevich S. Instance segmentation of personal protective equipment using a multi-stage transfer learning process. 2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC). 2020 Oct 11-14; Toronto, Canada. NJ: Institute of Electrical and Electronics Engineers; 2017. p.1181-6. https://doi.org/10.1109/SMC

(12)

42975.2020.9283427

26. Yang Z, Yuan Y, Zhang M, Zhao X, Zhang Y, Tian B. Safety distance identification for crane drivers based on mask R-CNN.

Sensors. 2019 Jan;19(12):2789. https://doi.org/10.3390/s19122789

27. GitHub: Where the world builds software [Internet]. Image Polygonal Annotation with Python: GitHub, Inc. 2008 - [cited 2021 Apr 7]. Available from: https://github.com/wkentaro/labelme

28. Bolya D, Zhou C, Xiao F, Lee YJ. Yolact: Real-time instance segmentation. 2019 IEEE/CVF International Conference on Computer Vision(ICCV). 2019 Oct 27-Nov 2; Seoul, Korea. NJ: Institute of Electrical and Electronics Engineers; 2020.

p.9157-66. https://doi.org/10.1109/ICCV.2019.00925

29. Lin TY, Dollár P, Girshick R, He K, Hariharan B, Belongie S. Feature pyramid networks for object detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2017 Jul 21-26; Honolulu, HI. NJ: Institute of Electrical and Electronics Engineers; 2017. p. 2117-25. https://doi.org/10.1109/CVPR.2017.106

30. Voigtlaender P, Krause M, Osep A, Luiten J, Sekar BB, Geiger A, Leibe B. Mots: Multi-object tracking and segmentation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). 2019 June 15-20; Long Beach, CA. NJ: Institute of Electrical and Electronics Engineers; 2020. p. 7942-51. https://doi.org/10.1109/CVPR.2019.00813

31. Luo W, Xing J, Milan A, Zhang X, Liu W, Kim TK. Multiple object tracking: A literature review. Artificial Intelligence. 2021 Apr 293:103448. https://doi.org/10.1016/j.artint.2020.103448

32. Bewley A, Ge Z, Ott L, Ramos F, Upcroft B. Simple online and realtime tracking. 2016 IEEE international conference on image processing(ICIP). 2016 Sept 25-28; Phoenix, AZ. NJ: Institute of Electrical and Electronics Engineers; 2016. p. 3464-8.

https://doi.org/10.1109/ICIP.2016.7533003

33. Everingham M, Van Gool L, Williams CK, Winn J, Zisserman A. The pascal visual object classes (voc) challenge. International journal of computer vision. 2010 Jun;88(2):303-38. https://doi.org/10.1007/s11263-009-0275-4

34. Lin TY, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick CL. Microsoft coco: Common objects in context. European conference on computer vision. 2014 Sep;8693:740-55. https://doi.org/10.1007/978-3-319-10602-1_48 35. Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric. 2017 IEEE international

conference on image processing(ICIP). 2017 Sep 17-20; Beijing, China. NJ: Institute of Electrical and Electronics Engineers;

2018. p. 3645-9. https://doi.org/10.1109/ICIP.2017.8296962

36. Leal-Taixé L, Milan A, Reid I, Roth S, Schindler K. Motchallenge 2015: Towards a benchmark for multi-target tracking.

arXiv:1504.01942 [Preprint]. 2015 [cited 2021 Apr 8]. Available from: https://arxiv.org/abs/1504.01942

37. Milan A, Leal-Taixé L, Reid I, Roth S, Schindler K. MOT16: A benchmark for multi-object tracking. arXiv:1603.00831 [Preprint]. 2016 [cited 2021 Apr 8]. Available from: https://arxiv.org/abs/1603.00831

38. GitHub: Where the world builds software [Internet]. Deep learning-based Computer Vision Models for PyTorch: GitHub, Inc.

2008 - [cited 2021 Apr 7]. Available from: https://github.com/unerue/boda

39. Xuehui A, Li Z, Zuguang L, Chengzhi W, Pengfei L, Zhiwei L. Dataset and benchmark for detecting moving objects in construction sites. Automation in Construction. 2021 Feb;122:103482. https://doi.org/10.1016/j.autcon.2020.103482