• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Computer Science and Engineering, Konkuk University, Korea.)



Stereo vision, UAV, Semi-supervised learning, Disparity map, Obstacle detection

1. 서 론

최근 UAV 기술이 발전하면서 군사, 교통, 운송, 농업 등 다양한 산업에서 활용되고 있다. 하지만 UAV는 날씨와 같은 외부의 요인을 크게 받기 때문에 충돌, 추락과 같은 안전성 문제가 대두되고 있으며, 이를 해소하기 위해 다양한 기술이 연구되고 있다. 일반적으로 UAV의 안전성과 사용 성을 높이기 위해 LiDAR(Lighting Detection And Ranging)나 스테레오 카메라와 같은 센서를 부착하는 경우가 대부분이다. 이러한 센서들은 깊이 맵(depth map) 또는 시차 맵(disparity map)을 통해 주변의 장애물을 탐지한다.

LiDAR는 레이저 펄스를 이용하여 장애물에 반사되어 돌아오는 시간을 측정해 장애물의 위치 좌표를 측정하는 시스템이다. 주로 항공, 위성, 자율주행자동차에 사용되며, 정확성이 높지만 전력 소비가 크고 무겁기 때문에 UAV에 부착하는 것에 제약이 존재한다. 그에 반해 스테레오 카메라는 LiDAR와 비교해 전력소모가 적고, 크기가 작으며, 가격이 저렴하다는 장점이 있기 때문에 소형 UAV 사용에 적합하다. 스테레오 카메라는 두 영상의 시차(disparity)를 이용해 3차원 거리정보를 획득 할 수 있다. 본 논문에서는 LiDAR와 같은 센서를 사용 할 수 없는 소형 UAV 환경에 초점을 두어 거리 정보를 획득하기 위한 시차 맵을 추정한다.

본 논문의 실험 과정은 다음과 같다. UAV에 스테레오 카메라를 부착해 데이터 셋을 수집 후 SGM(1)(Semi- Global Matching)을 통해 유사 ground truth를 구성하고, 이를 활용해 시차 맵을 구성하기 위한 준 지도 학습 기반 신경망을 구성한다. 위와 같이 실험한 결과로 SGM보다 정교한 시차 맵을 구성 할 수 있었으며, 추후 MobileNet(13)연구와 유사하게 가벼운 신경망을 구성해 실제 UAV 환경에 사용할 수 있도록 연구할 예정이다.

본 논문의 구성은 다음과 같다. 제 2장에서는 기존 스테레오 매칭 알고리즘 가운데 가장 널리 알려진 SGM과 신경망을 이용한 시차 맵 추정 방법에 대해 서술한다. 3장에서는 UAV를 이용한 데이터 셋 수집 방법 및 본 논문에서 제안하는 분석과 신경망 학습을 위한 방법에 대해 기술하며, 4장에서는 실험결과에 대해 서술한다. 5장에서는 결론 및 향후 과제를 제시하며 논문을 마무리한다.

2. 관련 연구

스테레오 비전이란 인간의 시각 시스템을 모방한 컴퓨터 비전

그림 1 수집한 데이터 셋(위의 사진들은 UAV의 정면에 스테레오 카메라를 부착하여 수집한 스테레오 이미지이며, 아래는 자동차를 통해 수집한 스테레오 이미 지이다.)

Fig. 1 Collected data set (The above pictures are stereo images collected by attaching a stereo camera to the front of the UAV, and below are stereo images collected through a car.)

../../Resources/kiee/KIEE.2020.69.5.723/fig1.png

분야 중 하나로서 좌/우 영상의 시차를 계산하여 3차원의 거리정보를 획득 할 수 있는 기법이다. 여기서 시차란 두 영상 안에 존재하는 같은 물체에 대한 픽셀 위치의 차이를 말하며, 시차 값이 클수록 가까이 있는 물체를, 시차 값이 작을수록 멀리 있는 물체를 나타낸다. 이러한 3차원 거리정보는 자율 주행 자동차(2,3), UAV(4) 등에 활용된다. Scharstein과 Szeliski(14)에 의하면 스테레오 정합 알고리즘은 기본적으로 매칭 비용 계산, 비용 합산, 시차 값 계산 및 최적화, 시차 값 개선 과정을 거친다. 또한 정합의 종류는 크게 윈도우를 기반으로 시차 값을 계산하는 local matching과 에너지 함수를 기반으로 시차 값을 계산하는global matching으로 나뉜다.

(1)
\begin{align*} E(D)=\sum_{p}(C(p,\: D_{p}))+\sum_{q\in N_{p}}P_{1}T[\vert D_{p}-D_{q}\vert =1]\\ +\sum_{q\in N_{p}}P_{1}T[\vert D_{p}-D_{q}\vert >1] \end{align*}

SGM(1)은 global matching 방식 중에 하나이며, 정합 기반 알고리즘 가운데 성능이 우수한 것으로 알려진 알고리즘 중 하나이다. SGM에서 시차 맵 계산 방법은 다음과 같다. 두 이미지 사이의 전역 변화를 이용하여 정합을 수행하는 MI(5)(Mutual Information)를 변형한 HMI (Hierarchically Mutual Information)를 이용하여 매칭 비용을 계산한다. 그 후 수식 1과 같이 에너지 함수를 정의하여 픽셀의 모든 방향에 대해 최적화를 수행하여 시차 값을 계산하고, left-right consistency check, removal peak 등과 같은 알고리즘을 통해 시차 값의 불일치를 보완한다. 수식 1의 첫 번째 합산 항은 픽셀 에 대한 모든 바용의 합이고, 두 번째 합산 항은 픽셀 의 모든 주변 픽셀 에 대해 시차 값 차이가 1일 때 페널티를 부과한 값들의 합을 구한 것이며, 세 번째 식은 시차 값의 차이가 1이상 일 때 페널티를 부과한 값들의 합을 나타낸다.

또한 스테레오 비전 분야에서는 딥러닝 기술이 발전함에 따라 신경망을 이용하여 시차 맵을 추정하는 연구가 활발하게 진행되고 있다. 딥러닝을 통해 시차 맵을 추정하는 연구는 크게 이미지 패치를 신경망의 입력으로 하여 시차 맵을 추정하는 방식(6,7,8)과 이미지 전체를 입력으로 하여 시차 맵을 추정하는 방식(9,10,15)이 있다.

이미지 패치를 통해 시차 맵을 추정하는 논문들의 경우 이미지의 일부분을 신경망의 입력으로 하여 합성곱 신경망(Convolutional Neural Network)과 완전 연결(Fully Connected)계층을 이용해 시차 값을 추정하는 경우를 말하며, SGM의 패널티 값이 출력으로 나오거나(6) 이미지의 유사도 값(7,8) 통해 시차 맵을 계산하는 연구 등이 존재한다.

이미지의 전체를 신경망의 입력으로 사용하는 경우, 합성곱 신경망을 통해 두 이미지의 기하학적 상관관계를 통해 시차 맵을 계산한다. 일반적으로 합성곱 신경망을 통해 두 이미지의 특징을 추출하고 매칭 비용을 계산하여 encoder/decoder 구조를 통해 시차 맵을 추정한다. 이러한 방식의 연구의 경우 샴 네트워크(Siamese Network) 구조를 이용해 시차 맵을 추정하는 방식(9,15)과 신경망의 입력으로 각각의 이미지가 들어가지만 신경망 중간에 두 개의 신경망이 더해져 하나의 시차 맵을 추정하는 방식(10) 등이 존재한다.

위와 같이 스테레오 이미지를 이용하여 시차 맵을 추정하는 연구 이외에도 이미지 한 장으로 시차 맵을 추정하는 monocular vision 연구(11)나 매칭 비용을 입력으로 시차 맵을 추정하는

그림 2 신경망 구조 (스테레오 이미지(1280x1280)를 입력받고, 각 이미지를 center crop하여 640x640 크기의 이미지가 신경망의 입력으로 들어간다. 신경망은 크게 3부분으로 나뉘며, (A)는 각 이미지에서 특징 맵을 추출하는 부분, (B)는 이를 합하여 매칭 비용을 계산하는 부분, (C)는 encoder-decoder구조로 고차원의 특징 맵을 추출하고 시차 맵을 추정하는 부분이다.)

Fig. 2 Neural Network Architecture (a stereo image (1280x1280) is input, and an image cut by 640x64 size based on the center of the image enters the input of the neural network. (B) is the part to calculate the matching cost by summing it, (C) is the part to extract the high-dimensional feature map and estimate the parallax map with the encoder-decoder structure.)

../../Resources/kiee/KIEE.2020.69.5.723/fig2.png

연구(12) 등 시차 맵을 계산하는 다양한 연구가 진행되고 있다.

3. 본 론

3.1 데이터 수집 및 분석

기존 UAV 데이터 셋의 경우 스테레오 기반으로 획득 한 영상이 드물다. 또한 스테레오 카메라로 수집된 데이터들은 레이저 스캐너 등으로 측정된 정밀한 시차 맵이 존재하지 않고, 촬영 된 영상의 카메라 방향이 장애물을 탐지하기에 부적합한 경우가 대부분이다. 또한 캘리브레이션 (calibration)을 위해 필요한 카메라의 내부, 외부 파라미터나 초점거리(focal length) 등과 같은 정보를 정확하게 제공해 주지 않기 때문에 본 논문에서는 제안한 시나리오에 맞춰 UAV에 스테레오 카메라를 부착해 스테레오 영상을 직접 수집하였다.

스테레오 카메라는 UAV 정면에 부착하였으며, 비행 도중 장애물을 탐지하기에 적합하도록 낮은 고도에서 비행하였다. 하지만 UAV만을 이용해 데이터 셋을 수집하는 것은 공간적 한계가 있고, 날씨의 영향을 크게 받기 때문에 많은 데이터를 수집하기에는 한계가 존재한다. 따라서 본 논문에서는 실험을 위하여 자동차를 이용한 데이터를 추가로 수집, 활용하였다.

자동차를 통해 데이터를 수집할 때는 스테레오 카메라를 자동차의 뒤와 옆에 부착하여 지정된 경로를 이동하면서 영상을 수집하였다. 이렇게 촬영된 데이터 셋은 그림 1과 같다. 수집한 영상은 1초에 2 프레임을 추출해 데이터 셋 간의 오버랩(overlap)을 최소화하여 신경망 학습 시 데이터 중복에 의한 오버피팅(overfitting)이 발생하는 것을 방지 하였다. 위와 같이 데이터를 수집한 결과 총 1275장의 스테레오 이미지가 수집되었다.

(2)
$z=\dfrac{f B}{d}$

연구에 사용된 스테레오 카메라는 2880x1440 해상도로 초당 30프레임이 촬영된다. 즉, 각 카메라의 해상도는 1440x1440이 된다. 두 카메라 사이의 거리(baseline, B)는 45mm이며, 각 카메라의 초점거리(focal length, f)는 1300pixel이다. 카메라의 최대 거리는 수식 2를 통해 구할 수 있으며, 거리(z)와 시차(d)는 반비례 관계를 가지는 것을 알 수 있다. 따라서 사용된 카메라에서 구분이 가능한 최소 시차 값은 1이므로 수식 2를 적용해 보면, 본 연구에 사용된 카메라의 최대 탐지 거리는 약 58.5m이다.

3.2 전처리 과정

신경망 학습을 진행하기에 앞서 두 가지의 과정이 필요하다. 첫 번째로 각 이미지의 왜곡을 보정하고, 두 이미지 사이의 y축을 평행하게하기 위해 calibration 및 rectification을 하는 것과 준지도 학습 기반 신경망을 구성하기 위해 SGM을 이용해 유사 ground truth를 구성하는 것이다.

먼저 스테레오 비전은 두 이미지 사이의 화소 값을 기반으로 시차 값을 계산하기 때문에 두 이미지의 y축이 평행하다는 가정을 만족해야 한다. 그렇기 때문에 calibration과 rectification 과정을 거쳐야 한다. 이를 수행하게 되면 1440x1440의 원본 스테레오 이미지에서 1280x1280의 왜곡이 보정된 이미지를 얻을 수 있다.

또한 본 논문에서는 정확한 ground truth가 없기 때문에 유사 ground truth를 구성한다. 비지도 학습을 통해 신경망을 구성하면 보다 정확한 시차 맵을 만들 수 있지만 메모리 소비가 크며, 시차 맵을 정확하게 예측하는데 오랜 시간이 걸리기 때문에 위와 같은 방법을 고려하였다. SGM의 결과가 ground truth가 아닌 유사 ground truth라고 하는 것은 화소 기반 매칭 방식이기 때문에 술통형 왜곡(barrel distortion)이 크게 나타나는 이미지의 외각부분이나 low texture, repetitive texture, reflection이 나타나는 부분 등의 경우 시차 값의 불일치 값이 발생하기

그림 3 실험결과(맨 왼쪽부터 오른쪽 이미지, 왼쪽 이미지, SGM(유사 ground truth), 신경망 학습 결과이며, 두 스테레오 이미지의 크기는 각각 640x640이다.

Fig. 3 Experimental results (left to right image, left image, SGM (similar ground truth), neural network learning results, and the size of the two stereo images are 640x640 respectively)

../../Resources/kiee/KIEE.2020.69.5.723/fig3.png

때문이다. 약간의 불일치가 있는 시차 값이지만 유사 ground truth를 만들게 되면 학습 시 비지도 학습에 비해 시차 값을 빠르게 수렴할 수 있다는 장점이 있다. 따라서 본 논문에서는 유사 ground truth를 통해 시차 맵을 빠르게 수렴하고, 비지도 학습기반 손실함수를 도입해 유사 ground truth의 불일치 부분을 보정한다. SGM을 기반으로 만든 시차 맵의 값의 범위는 1~33이며, 이는 약 1.8m~58.5m 범위내의 객체와의 거리를 추정할 수 있게 한다.

3.3 신경망 학습

또한 본 논문의 전체 손실함수는 수식(3)과 같다. 손실함수는 지도 학습 기반 손실함수 (Lsup) 식과 비지도 학습 기반 손실함수 (Lunsup)식이 합쳐진 형태로 구성되어 있으며, 이를 준지도 학습 기반 손실함수라 정의 한다.

(3)
$L_{semi}=L_{su p}+L_{unsup}$

지도 학습 기반 손실함수는 수식 4와 같으며 신경망을 통해 예측된 시차 맵의 시차 값 (dpred)과 SGM으로부터 만들어진 유사 ground truth의 시차 값(dgt)을 비교해 손실 값을 측정한다. 손실 값의 크기가 너무 크지 않게 하기 위해 두 값의 차는 L1 norm으로 구성하였다. 이와 같이 지도 학습 기반으로 손실함수를 구성하면 시차 값에 빠르게 수렴한다는 장점이 있다.

표 1 신경망 레이어 구조(신경망은 총 30층으로 구성되어 있으며, H는 이미지 너비, W는 이미지 높이. D는 시차 값의 범위, F는 특징 맵의 개수이다.)

Table 1 Neural network layer structure (The neural network consists of 30 layers, H is the image width, W is the image height, D is the range of disparities, and F is the number of feature maps.)

No.

Layer

Kernel /

stride

Output_shape

Input

1

cost1_l

cost1_r

5x5/2

5x5/2

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

left_image

right_image

2

cost2_l

cost2_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost1_l

cost1_r

3

cost3_l

cost3_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost2_l

cost2_r

4

cost4_l

cost4_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost3_l

cost3_r

5

cost5_l

cost5_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost4_l

cost4_r

6

cost6_l

cost6_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost5_l

cost5_r

7

cost7_l

cost7_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost6_l

cost6_r

8

cost8_l

cost8_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost7_l

cost7_r

9

cost9_l

cost9_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost8_l

cost8_r

10

cost10_l

cost10_r

3x3/1

3x3/1

(1⁄2H, 1⁄2W, 32)

(1⁄2H, 1⁄2W, 32)

cost9_l

cost9_r

11

cost_

volume

(1⁄2D, 1⁄2H, 1⁄2W, 64 )

cost10_l+

cost10_r

12

e_conv1

3x3x3/1

(1⁄2D, 1⁄2H, 1⁄2W, 32)

cost_volume

13

e_conv2

3x3x3/1

(1⁄2D, 1⁄2H, 1⁄2W, 32)

e_conv1

14

e_conv3

3x3x3/2

(1⁄4D, 1⁄4H, 1⁄4W, 32)

e_conv2

15

e_conv4

3x3x3/1

(1⁄4D, 1⁄4H, 1⁄4W, 32)

e_conv3

16

e_conv5

3x3x3/1

(1⁄4D, 1⁄4H, 1⁄4W, 32)

e_conv4

17

e_conv6

3x3x3/2

(1⁄8D, 1⁄8H, 1⁄8W, 64)

e_conv5

18

e_conv7

3x3x3/1

(1⁄8D, 1⁄8H, 1⁄8W, 64)

e_conv6

19

e_conv8

3x3x3/1

(1⁄8D, 1⁄8H, 1⁄8W, 64)

e_conv7

20

e_conv9

3x3x3/2

(1⁄16D, 1⁄16H, 1⁄16W, 64)

e_conv6

21

e_conv10

3x3x3/1

(1⁄16D, 1⁄16H, 1⁄16W, 64)

e_conv9

22

e_conv11

3x3x3/1

(1⁄16D, 1⁄16H, 1⁄16W, 64)

e_conv10

23

e_conv12

3x3x3/2

(1⁄32D, 1⁄32H, 1⁄32W, 128)

e_conv11

24

e_conv13

3x3x3/1

(1⁄32D, 1⁄32H, 1⁄32W, 128)

e_conv12

25

e_conv14

3x3x3/1

(1⁄32D, 1⁄32H, 1⁄32W, 128)

e_conv13

26

d_conv1 d_conv1_out

d3x3x3/2

(1⁄16D, 1⁄16H, 1⁄16W, 64)

(1⁄16D, 1⁄16H, 1⁄16W, 64)

e_conv14 d_conv1+e_conv11

27

d_conv2 d_conv2_out

d3x3x3/2

(1⁄8D, 1⁄8H, 1⁄8W, 64)

(1⁄8D, 1⁄8H, 1⁄8W, 64)

d_conv1_out d_conv2+e_conv9

28

d_conv3 d_conv3_out

d3x3x3/2

(1⁄4D, 1⁄4H, 1⁄4W, 32)

(1⁄4D, 1⁄4H, 1⁄4W, 32)

d_conv2_out d_conv3+e_conv5

29

d_conv4 d_conv4_out

d3x3x3/2

(1⁄2D, 1⁄2H, 1⁄2W, 32)

(1⁄2D, 1⁄2H, 1⁄2W, 32)

d_conv3_out d_conv4+e_conv2

30

output

d3x3x3/2

(D, H, W, 1)

d_conv4_out

(4)
$L_{su p}=| d_{pred}-d_{gt}|$

비지도 학습 기반 손실함수는 수식 5와 같다. SGM의 결과로 만들어진 유사 ground truth는 위에서 언급 하였지만 시차 값의 불일치가 발생한다. 그렇기 때문에 비지도 학습 기반 손실함수를 통해 좀 더 정확한 시차 값을 계산한다. 수식 5는 스테레오 관점을 기반으로 하여 만들어진 손실함수이다. 시차 값은 왼쪽 이미지와 오른쪽 이미지의 x축 상의 위치 차이를 의미하기 때문에 오른쪽 이미지(Ir)의 (i, j)번째 위치의 픽셀 값은 왼쪽 이미지(Il)의 (i-d, j)번째 위치의 픽셀 값과 같은 값을 가져야 한다. 이를 기반으로 구성한 손실함수가 바로 비지도 학습 기반 손실함수이다. 비지도 학습이기 때문에 ground truth는 필요하지 않다. 수식 5는 전체 이미지에 대해 손실 값을 구하는 것이 아닌 300x300 윈도우를 기반으로 학습 때마다 윈도우 위치를 바꿔가며 손실 값을 계산하였다.

(5)
$L_{unsup}=\sum_{i=r}^{r+300}\sum_{j=r}^{r+300}| I_{l}(i-d_{pred}(i,\:j),\:j)-I_{r}(i,\:j)|$

전체 이미지 1275장 중 학습에 사용된 이미지 수는 총 911장이며 검증에 사용된 이미지 수는 180장, 테스트에 사용된 이미지 수는 184장이다. 전체 데이터 셋에서 대략 학습 : 검증 : 테스트 = 7.5 : 1.5 : 1.5의 비율이 되도록 나누었다. 본 논문에서 추정하는 시차 값의 범위는 1~33이며, 시차 맵을 통해 추정 가능한 장애물의 거리는 1.8m~58.5m이다. 또한 구현 세부사항은 다음과 같다. optimizer는 RMSProp을 사용하였으며, epoch은 100번을 주어 반복 학습하였다. 이미지 사이즈가 크기 때문에 batch size는 1이며, learning rate는 $10^{-3}$으로 설정하였다.

3. 실험 결과

위와 같이 데이터를 수집하고, 신경망 학습을 한 결과는 그림 3과 같다. SGM으로 시차 맵을 만들었을 때와 비교하면 SGM에서는 추정할 수 없었던 폐색영역(occlusion)(그림 3의 노란색 부분)이 줄어들고, 시차 값이 불일치(그림 3의 초록색 부분)하는 영역 역시 줄어든 것을 확인할 수 있다. 또한 스테레오 이미지에서 색의 변화가 없는 부분(low texture)이나 반복적인 패턴(repetitive texture)이 있는 부분의 경우 SGM을 사용하면 그림 3의 아래 부분과 같이 격자무늬가 생기는 경우(그림 3의 파란색 부분)가 발생한다. 이는 SGM이 수식 1의 에너지 함수를 최소화 하는 과정에서 모든 방향에 대해(위, 아래, 양 옆, 대각선) 최적화를 수행하면서 생긴 불일치이다. 하지만 본 논문에서 제안한 신경망에서는 위와 같은 문제가 발생하지 않는다. 이는 컨볼루션으로 인해 smoothness constraint가 적용되어 좀 더 부드러운 시차 맵을 추정할 수 있었고, 무엇보다 유사 ground truth에만 의존해 학습하지 않고, 비지도 학습 기반 손실함수를 도입하여 유사 ground truth의 불일치된 시차 값을 보정했기 때문에 나온 결과이다.

4. 결 론

본 논문에서는 UAV환경에서 스테레오 비전과 딥러닝을 활용하여 시차 맵을 추정하는 방법에 대해 제안하였다. 기존 UAV기반 스테레오 데이터 셋은 스테레오 비전에 필요한 카메라 정보나 영상의 촬영 각도 등이 적합하지 않기 때문에 본 논문에서는 새로운 UAV 데이터 셋을 구성하여 신경망을 학습시켰다. 또한 원활한 학습을 위해 SGM(1)을 이용하여 유사 ground truth를 만들어 준지도 학습을 수행하였다. 위와 같이 데이터 셋을 구성하고 준지도 학습 기반 신경망을 통해 시차 맵을 추정한 결과 기존 스테레오 알고리즘 보다 견고한 시차 맵을 추정할 수 있었다.

하지만 여전히 시차 값의 불일치가 존재하며, 연산 량이 크기 때문에 실시간 추정이 필요한 UAV에 적용하기에는 부적합한 부분이 존재한다. 향후에는 MobileNet(13)과 같이 신경망의 파라미터를 줄이고, 좀 더 견고한 시차 맵을 추정할 수 있는 알고리즘에 대해 연구를 할 예정이다.

Acknowledgements

This research was funded and conducted under ‘The Competency Development Program for Industry Specialist’ of the Korean Ministry of Trade, Industry and Energy (MOTIE), operated by Korea Institute for Advancement of Technology (KIAT). (No. N0002431)

References

1 
H. Hirschmuller, 2007, Stereo processing by semiglobal matching and mutual information, IEEE Transactions on pattern analysis and machine intelligence, Vol. 30, No. 2, pp. 328-341DOI
2 
N. Bernini, et al., 2014, Real-time obstacle detection using stereo vision for autonomous ground vehicles: A survey., in Proc. of 17th International IEEE Conference on Intelligent Transportation Systems (ITSC), pp. 873-878DOI
3 
S. Ramos, et al., 2017, Detecting unexpected obstacles for self-driving cars: Fusing deep learning and geometric modeling, 2in, pp. 1025-1032DOI
4 
B. Ruf, et al., 2018, Real-time on-board obstacle avoidance for UAVs based on embedded stereo vision, arXiv preprint arXiv:1807.06271DOI
5 
P. Viola, W. M. Wells III, 1997, Alignment by maximization of mutual information, International Journal of Computer Vision, Vol. 24, No. 2, pp. 137-154DOI
6 
A. Seki, M. Pollefeys, 2017, Sgm-nets: Semi-global matching with neural networks, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 231-240Google Search
7 
J. Žbontar, Y. LeCun, 2015, Computing the stereo matching cost with a convolutional neural network, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1592-1599Google Search
8 
J. Žbontar, Y. LeCun, 2016, Stereo matching by training a convolutional neural network to compare image patches, The Journal of Machine Learning Research, Vol. 17, No. 1, pp. 2287-2318Google Search
9 
A. Kendall, et al., 2017, End-to-end learning of geometry and context for deep stereo regression, Proceedings of the IEEE International Conference on Computer Vision, pp. 66-75Google Search
10 
Z. Liang, et al., 2018, Learning for disparity estimation through feature constancy, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2811-2820Google Search
11 
S. Kim, et al., 2018, Unified confidence estimation networks for robust stereo matching, IEEE Transactions on Image Processing, Vol. 28, No. 3, pp. 1299-1313DOI
12 
Y. Luo, et al., 2018, Single view stereo matching, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 155-163Google Search
13 
A. G. Howard, et al., 2017, Mobilenets: Efficient convolutional neural networks for mobile vision applications, arXiv preprint arXiv:1704.04861Google Search
14 
D. Scharstein, R. Szeliski, 2002, A taxonomy and evaluation of dense two-frame stereo correspondence algorithms, International Journal of Computer Vision, Vol. 47, No. 1-3, pp. 7-42DOI
15 
S. Khamis, et al., 2018, Stereonet: Guided hierarchical refinement for real-time edge-aware depth prediction, Proceedings of the European Conference on Computer Vision (ECCV), pp. 573-590Google Search

저자소개

이예지 (Yegi Lee)
../../Resources/kiee/KIEE.2020.69.5.723/au1.png

Feb. 2018: B.S. in Smart Mobile Far East University.

Feb. 2020: M.S.E. in Smart ICT Covergence, Konkuk University.

2020~Present: Ph.D. student in Computer Science and Engineering Konkuk University.

Research Interests : Computer Vision, IoMT, AI.

윤경로 (Kyoungro Yoon)
../../Resources/kiee/KIEE.2020.69.5.723/au2.png

Feb. 1987: B.S. in Electronics and Computer Eng., Yonsei University.

Dec. 1989: M.S.E. in Electrical Engineering/ Systems, University of Michigan, Ann Arbor.

May 1999 : Ph.D., in Computer and Information Science, Syracuse University.

June 1999~Aug. 2003: Group Leader, LG Electronics Institute of Technology.

Sept. 2003~Present: Professor, Dept. of Smart ICT Convergence Eng., Konkuk University.

Oct. 2017~Present: Chair, ISO/IEC JTC1 SC29 Korea Mirror Committee.

July 2019~Present: Chair, Digital Virtualization Forum.

Sep. 2019~Present: Chair, IEEE 2888 Working Group.

Research Interests : Smart media system, Multimedia retrieval, Image processing, Multimedia information and metadata processing.