한국전자통신연구원 - 세부연구 추진내용 - 추진실적 상세내용

3. 추진실적 상세내용

3.2 세부연구 추진내용

3.3.8 한국전자통신연구원

① 노면표시 추출 및 모델링 기술

노면표시표지(차선, 방향표시, 건널목 등)는 특정 두께를 갖는 선들의 집합으로 구성되며, 본 연구를 통해 특정한 두께를 갖는 선의 중심을 잇는 선을 매우 효과적으로 검출하는 방법 및 이 를 직선 선분으로 모델링 하는 기술을 개발하였다. 본 연구에서는 이러한 특정한 두께의 선의 중심을 잇는 점들의 집합을 핵심선 (Salient-line) 이라고 정의한다. 핵심선을 찾기 위한 원리는 다음과 같다. 잘 알려져 있는 것과 대칭함수의 경우 입력 신호와 동일한 신호의 합성곱 연산의 결과는 신호의 중점에서 최대값이 발생하는 원리를 이용한다. 선과 유사한 신호의 합성곱을 수 행한 후에 Morphological Extrema Filter (MEF)를 이용하여 선의 중점을 찾는다. 다음 그림에 서 보이는 것과 같이 핵심선은 파라미터 변화에 강인할 뿐만 아니라, 입력 잡음에도 매우 강인 하다.

그림 81. <핵심선 특징 추출기의 응답특성: (a) 이상적인 경우, (b) 좁은입력, (c) 넓은입력, 및 (d) 잡음. 각 행은 ① 입력신호, ② 커널, ③ 합성곱, ④ MEF 그리고 ⑤ 지역 최대값, (e) MEF 커널.>

임의의 선에 대해서 모든 방향에 대해 가장 유사한 신호는 그 선의 두께와 지름이 같은 원이다.

따라서 선의 중심점은 다음 식으로 정의 되는 pillbox 커널의 합성곱으로부터 얻을 수 있다.

K_pillbox  









^

 if



^_^ ^

 otherwase

여기서,   는 kernel 중심을 기준으로 하는 영상좌표이며, 은 커널의 반지름 이다. pillbox 커널은 중점을 기준으로 전방향 대칭이다. 또한, 이는 다음 그림 에서 보는 것과 같이 사각영역 들의 합이며, 이를 weighted slice 함수로 근사화 될 수 있다.

그림 82. < Pillbox filter 근사화: (a) pillbox fillter,

N ^의 최적 파라미터 MSE

2 0.616218, 0.938691 0.0802

3 0.489959, 0.771291, 0.962032 0.0554 4 0.412947, 0.658199, 0.841675, 0.973284 0.0423

표 12. Optimized parameters in case of   

중심점의 최대값을 강화 하고 모서리 잡음을 제거하기 위해 다음과 같이 morphological extrema filter (MEF) 제안한다.





^ ^if^otherwase^^

 max



^min



^±



^C _



^±



^C _{  }



^

f or ∈⋯ 

_{ }



max



^max



^±



^ _C



^±



^   _C



^

∈⋯ 

여기서, _C필터중점의 값이며, _ _C ^{}는 각 차수에 해당하는 필터값이다. 마지막 단 계는 임계치 이상의 값을 갖는 지역 최대값을 찾음으로써 최종적으로 핵심선을 결정한다. 다음 그림에서 입력영상과 핵심선 추출 및 핵심선의 선형 모델링 결과의 예시를 보였다.

그림 84. <노면표시 추출 및 모델링 결과 예시: (a) 역투영영상(top-view 합성영상), (b) 노면표시 추출 결과, (c) 노면 표시 모델링 결과>

② 주변 3차원 형상 인식을 통한 도로 및 경계 추출 기술 epipolar line을 일치하도록 영상을 rectification하는 것을 의미한다. Stereo rectified pair는 다음과 같은 매우 특별한 형태의 fundamental matrix를 갖는다.

의 3D 좌표 ^p^G 는 {S}를 기준으로 변환한 {R}의 3D 좌표 ^p^R^S 와 같으며, 다음과 같은 homogeneous transformation 으로 정의 된다.

R V O R 적은 개수로 한정될 수밖에 없으므로, histogram based method보다 sorting based method 가 더 효과적일 수 있다. 본 연구에서는 sorting based TMF는 매운 간단하지만 효과적인 windowed TMF 방법을 개발하였다. 데이터가 입력될 때마다, 정해진 크기의 buffer에 정렬 상 태를 유지하며 삽입한다. 만일 데이터의 수가 버퍼의 크기에 도달하면 가장 큰 값과 가장 작은 값을 제거함으로써 데이터의 일관성을 유지하는 기법을 사용한다. 다음에 이것의 의사코드를 나 타내었다.

FUNCTION: Windowed Temporal Median Filter INPUT: buffer, count, data RETURN buffer[count >>1]

그림 85. 높이정보 맵 품질향상을 위한 맵 합성필터의 의사코드

그림 86. 노면 주변 높이지도 생성 단계

구해진 높이 지도로부터 도로의 경계를 분류하는 것은 단순히 도로를 기준으로 하는 높이만으로 매우 간단히 해결할 수 있다. 다음 그림에서 높이지도 정보를 이용하여, 도로면 및 도로경계면을 분류한 예를 보였다.

그림 87. <도로 및 경체 추출 결과: (a)입력 영상, (b) 높이지도 생성 (c) 높이를 기반으로 하는 도로 및 경계

추출, 청색-도로, 하늘색-도로경계>

③ 도로, 차선 모델링 및 2D 정적맵 생성 기술

역투영영상(IPI)는 노면에 대한 distortion이 없기 때문에, 노면에 존재하는 마크는 동일한 형상 을 유지하며, 그 외의 것은 촬영 위치에 따라 형상이 변화한다. 본 연구에서는 이 변화된 형상의 확률분포로부터 노면이외의 선을 제거하고, 남겨진 노면상의 선들을 이용하여 정적맵을 생성하 는 방법을 개발하였으며, 해당 알고리즘의 구성은 다음 그림과 같다.

그림 88. 2D 정적맵 생성 기술 구성도

먼저, 노면표시 추출 기술로 추출 및 모델링 된 선분 데이터들을 지역 맵좌표계로 변환한다. 지 역 맵좌표계로 변환하는 식은 다음과 같다.

여기서 은 각각 기준 좌표 및 영상 좌표계를 기준으로 하는 선분의 끝점의 homogeneous vector이다. 는 차량의 상대위치로 차량의 움직임으로부터 얻어진다.

는 {V}에서 로 변환 식이다.

다음으로는 변환된 선분이 맵에 존재하는 선분과 매칭되는 지를 다음의 판별식을 사용하여 판단 한다.

여기서 , 는 각각 map과 영상에 대한 직선의 벡터로 직선의 양 끝점 벡터를 column vector로 갖는 직선의 vector이다. 는 직선벡터의 번째 column vector 이며, 벡터인덱스는 이 된다. , 는 각 직선벡터의 기울기이다.

매칭되는 선분이 없을 경우 새로운 선분으로 맵에 등록하고, 매칭된 선분은 확률분포를 갱신한 후 선분이 노면에 존재하는 노면표시 인지 판단한다. 여기서 사용하는 직선그룹의 확률 값은 기 울기 및 길이의 standard deviation으로 정의한다. 이 standard deviation이 오차범위에 들어 오고, matching count가 일정 수 이상이 경우에 노면에 존재하는 표시로 판단한다. 이상의 판 단식은 다음과 같이 정의 될 수 있다.

여기서,  은 매칭된 line 의 수, L_i 는 각 라인의 길이 및 기울기 벡터, μ는 평균값이다. 다음 그림에서 정적지도 생성예시를 보였다.

그림 89. 정적맵 생성 기술 수행 예

④ 랜드 마크 교통 표지판 인식 기술

서비스 맵의 로드마크 및 랜드마크 레이어에 필요한 교통표지판 인식기술을 개발하기 위하여 물 체인식 방법의 하나인 기계학습 방법을 사용하였다. 기계학습을 이용한 인식의 성능을 향상시키기 위하여 최근에는 Big dataset을 이용하고, 이러한 많은 데이터를 학습하기 위한 학습모델이 필요로 한다. Learning capacity가 큰 모델로는 Deep learning이 효과적이다. Caffe Deep learning framework를 이용하여 Deep Neural Networks를 구성하여 교통표지판 인식 기술을 개발하였다.

- 데이터 셋

기계학습을 사용하여 학습을 하기 위해서는 다량의 데이터 셋이필요로 한다. 교통표지판을 학습 하기 위하여 독일 INI의 German Traffic Sign Recognition Benchmark(GTSRB) Dataset을 사용 하였다. GTSRB Dataset의 목적은 하나의 영상으로부터 어떤 표지판인지를 찾는 multi-class 문제 를 해결하기 위함이다. 43개의 교통표지판 클래스로 구성되어 있으며 학습이미지 39,209개, 테스 트 이미지 12,630개로 총 50,000개 이상의 영상으로 구성되어 있다. 각 클래스의 영상들은 각기 다른 조명, 부분적 가림, 회전, 날씨 상태에 따라 다른 영상들로 구성되어 있다(아래 그림). 하나의 클래스는 하나의 폴더를 가지며, 각 폴더에는 CSV파일로 학습영상과 Annotation이 저장되어 있 다.

그림 90. GTSRB 교통표지판 데이터 셋

영상은 하나의 교통표지판을 담고 있으며, PPM(Portable Pixmap) 포맷으로 저장되어 있다. 영 상은 엣지 기반의 영상처리를 가능하게 하기 위하여 교통표지판을 중심으로 10%의 경계 영역(최 소 5 pixel)을 포함하고 있다. 영상의 크기는 15x15에서 250x250으로 다양하며 영상은 다양한 형 태의 사각형으로 이루어져 있다. 영상의 정보를 저장하고 있는 Annotation은 CSV파일에 저장이 되며 여기에는 파일이름, bounding box의 width, height, 그리고 박스의 좌상단 점과 우하단 점

그림 91. 데이터 셋 Annotation

- Deep Neural Networks를 이용한 교통표지판 인식 알고리즘

GTSRB같은 대량의 데이터 셋을 학습하기 위한 강인한 Deep Neural Networks 모델이 필요 하 다. CNN(Convolutional Neural Networks)은 영상처리에 적합한 Nueral Network layer로 기계 학습을 위한 영상인식기술에 사용 된다. 교통표지판을 인식하기 위한 Deep Neural Networks 모 델은 총 8 layer와 weight들로 구성하였다. 처음 6개의 layer는 Convolutional layer와 Max-pooling layer로 구성이 되어 있으면 마지막 2개의 layer는 Fully-connected layer를 사용하 여 구성하였다(아래 그림).

그림 92. Deep Neural Network 모델

Convolutional layer는 각 영상 및 input map에서 2D convolution을 수행한다. Convolution filter(kernel)는 각 layer에서 Mx와 My로 크기를 설정하여 사용한다. Max-pooling layer는 kernel을 이용하여 Convolution layer의 결과를 정리하여 다음 layer의 input map을 구성하게 된 다. Fully-connected layer는 이전 layer의 output을 1차원 feature map으로 생성하여 최종 인식 을 수행하게 된다. 1차 Fully-connected layer에서 feature map의 차원의 수를 줄이고 최종 Fully-connected layer에서는 output으로 각 class에 대한 확률을 계산하게 된다. 그 결과 각 output 확률 중 가장 높은 class로 최종 인식을 하게 된다. 알고리즘의 성능 향상을 위해 Convolution layer와 첫 번째 max-pooling layer의 output에 ReLU(Rectified Linear Unit)를 적 용하였다. ReLU를 적용하면 input normalization을 수행하지 않아도 saturation을 방지 할 수 있 다.

표 13. DNN 학습 파라미터

Deep Neural Networks를 학습하기 위해서는 많은 Dataset을 가지고 있을수록 좋다. 여기서는 더 많은 학습 데이터를 만들기 위하여 이미지 변형 방법을 사용하였다. 이러한 변명은 image translation, horizontal reflection, RGB intensity 변형 방법으로 추가 DB 저장 없이 간단한 영상 처리를 통해 DB의 수를 추가 할 수 있다. 또한 1차 Fully-conntected layer에 Drop-out 알고리즘 을 적용시켜 overfitting 발생을 줄일 수 있었다. 위 표의 학습파라메터를 이용하여 Caffe Deep learning framework를 사용하여 DNN 모델의 weight를 학습시킨다. 학습된 파라메터 및 weight 를 사용하여 GTSRB의 test dataset으로 실제 표지판 인식에 대한 결과를 확인 해보았다(아래 그 림). 결과 인식 정확도는 97.4% 이다.

그림 93. GTSRB 테스트 데이터 셋 인식 결과

⑤ 클라우드 서비스 맵 데이터를 이용한 자율주행 라우팅 알고리듬

클라우드 서버는 MMS(Mobile Mapping System) 또는 일반 ADAS 차량으로 취득된 로드 마크 데이터를 이용하여 서비스 맵을 생성 및 제공한다. 서비스 맵은 1. 자율주행 차량에서의 차량 위치

문서에서 R&D연구결과보고서 (페이지 77-98)