차영화
(Young Hwa Cha)
1iD
박병준
(Byung Joon Park)
†iD
-
(Department of Computer Science, Kwangwoon University , Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Meter Reading, Object Detection, OCR, YOLO, CRNN
1. 서 론
최근 수요 반응 시장의 확대로 전력 수요에 대한 예측을 필요로 하고 있다. 정확한 전력 수요 예측을 위해서는 전력 사용 패턴을 분석하는 작업이 필요하며
이를 위해서는 시간대별 전력 사용량의 평가가 필수적이다. 공장과 같은 산업분야에서는 디지털 전력 계량기가 보급되어 실시간으로 사용량을 기록하고 있지만
아직까지 많은 가정에서는 아날로그 계량기가 사용되며 사용량은 월별로 검침원에 의해 수기로 기록하고 있다. 이를 스마트폰이나 태블릿 pc와 같은 카메라가
장착된 스마트 기기를 사용해서 사진 촬영만으로도 사용량을 읽을 수 있게 하여 기록의 편의성을 높이는 것이 이 연구의 배경이다. 계량기 이미지에서 숫자를
자동으로 인식하기 위해서는 두 과정이 필요하다. 첫 번째는 계량기 이미지에서 사용량에 해당하는 숫자 영역을 찾는 것이고, 두 번째는 첫 번째 과정의
결과로 얻어진 숫자 영역에서 숫자를 인식하는 것이다. 현재 한국에서 사용되는 아날로그 계량기에는 사용량에 해당하는 숫자 이외에도 제조사, 일련번호
등과 같은 다양한 텍스트를 포함하고 있다. 이 중에서 숫자 영역만을 찾기 위하여 본 연구에서는 객체 감지를 사용한다. 객체 감지란 이미지 속에서 특정
물체의 클래스명과 위치정보를 반환하는 컴퓨터 비전의 한 분야로서 최근 심층 신경망을 활용한 여러 모델들이 발표되고 있다. 우리는 이미지 속 텍스트
인식과 관련한 또 다른 주제인 자동차 번호판 인식에 관한 Li 외 2인의 연구(1)에서 객체 감지를 사용할 아이디어를 얻었다. Li 외 2인의 연구에서는 Faster-RCNN(2)을 사용하여 자동차 이미지에서 번호판 영역을 감지하였으며, 높은 수준의 정확도를 보임을 실험결과로 제시하였다. 본 연구에서는 이미 소개된 여러 객체
감지 모델들 중에서 높은 수준의 감지 성능을 보이는 YOLO(3)를 사용한다. 특별히 YOLO를 사용한 이유는 Li 외 2인의 연구에서 정확도가 검증된 모델인 Faster-RCNN에 비해 비슷한 정확도를 가지면서도
구조가 단순하여 구현에 용이하고 감지속도가 더 빠르다는 점이다. 비록 YOLO가 실시간 객체 감지를 목적으로 고안된 모델이기는 하나 실시간 모델이
아닌 Faster-RCNN에 비하여 계량기 이미지로 실험한 결과 더 나은 감지 성능을 보였으며, 게다가 우리는 시스템의 경량화를 위하여 각 계층의
필터수를 축소한 버전의 YOLO 모델을 사용하였다. YOLO와 Faster-RCNN의 성능을 비교한 실험결과는 본론에서 제시하겠다. 두 번째 과정인
이미지 속에서 텍스트를 인식하는 분야로 광학 문자 인식(OCR)이 있다. 본 연구에서는 심층 신경망을 활용한 광학 문자 인식 모델인 CRNN(Convolutional
Recurrent Neural Network)을 사용한다. YOLO와 CRNN(4)과 같은 신경망 모델을 예측에 활용하려면 모델을 훈련해야 하며 훈련을 위한 데이터 집합이 필요하다. 우리는 모델의 훈련과 성능 평가를 위해 데이터
집합을 직접 생성하였다. 계량기 이미지에서 숫자를 인식하는 과거의 연구들은 주로 영상 처리 기술을 사용하였다. 영상 처리 기술을 사용한 방법은 계량기의
모양과 표시되는 숫자의 폰트에 제한적이다. 본 논문에서는 학습에 필요한 계량기 이미지만 확보된다면 범용으로 사용할 수 있는 자동으로 계량기 숫자를
인식하는 방법을 제안한다.
2. 관련 연구
본 절에서는 전력 계량기에서 숫자를 인식하는 기존 연구들과 본 연구와 같이 이미지 속 텍스트를 인식하는 문제를 다루는 주제인 자동차 번호판 인식을
위한 연구 중 하나를 소개하겠다.
Elrefaei 외 4인은 사우디아라비아에서 사용된 아날로그 전력 계량기에서 아라비아 숫자를 자동으로 인식하였다.(3) 그들은 그레이 스케일링, 이진화, 노이즈 감소와 같은 영상 처리 기술을 사용하여 숫자 영역을 잘라낸 뒤 숫자들의 픽셀의 개수 차이를 이용하여 숫자를
식별하였다. Elrefaei 등의 논문에서는 21개의 이미지를 테스트하였으며, 숫자 영역을 찾는 작업은 90.47%, 숫자를 인식하는 작업에는 85.71%의
성능을 보였다.
Anis 외 4인은 7-세그먼트로 숫자를 표시하는 액정 디스플레이를 사용한 전력 계량기에서 숫자를 자동으로 인식하였다.(4) 그들이 실험한 계량기의 디스플레이는 녹색의 백라이트를 가지고 있었다. 그들은 이를 이용하여 이미지의 RGB값을 YCrCR값으로 변환한 뒤 디스플레이와
다른 부분의 색상 성분의 차이에서 임계값을 두어 숫자 영역을 구분하였으며, 디스플레이에 표시된 숫자는 2x3영역으로 구분한 뒤 각 영역에 픽셀 분포
패턴을 이용하여 각 숫자를 식별하였다. Anis 등의 논문에서는 135개의 이미지를 테스트하였으며, 숫자 영역을 찾는 작업은 96.30%, 숫자를
인식하는 작업에는 94.10%의 성능을 보였다.
위의 두 연구 모두 영상 처리 기법을 사용한 방법으로 심층 신경망을 사용한 방법에 비하여 학습 시간이 소요되지 않는 다는 장점은 있지만 특정한 계량기에서만
적용할 수 있다는 단점이 있다. 다시 말해 본 연구에서 대상으로 하는 한국에서 사용하는 아날로그 전력 계량기에는 위의 방법들을 적용하여 숫자를 인식하기
어렵다.
Shuo 외 4인은 중국에서 사용되는 계량기에서 숫자를 인식하였다.(5) 그들은 액정과 카운터 디스플레이 양쪽 모두에서 적용 가능한 방법을 제안하였다. 신경망 모델인 SSD(Single Shot Multi Box Detector)(6)를 객체 감지에 사용하였고 광학 문자 인식에는 SVM(Support Vector Machine)(7)을 사용하였다. 2000개의 이미지로 모델을 훈련하여 300개의 이미지에 테스트한 결과, 액정 디스플레이를 가진 계량기에서는 86.90%를 카운터
디스플레이를 가진 계량기에서는 90.32%의 성능을 보였다. 신경망 모델을 활용했지만 본 연구과는 다른 모델을 사용하였다.
이미지에서 특정 영역의 텍스트를 인식하기 위한 보편적인 연구 주제로는 자동차 번호판 인식이 있다. 자동차 번호판 인식은 이미지에서 번호판 부분을 감지한
뒤 번호판의 숫자와 문자를 인식하기 위한 주제로서 본 연구와 인식하려는 대상은 다르지만 매우 유사한 문제를 다룬다. 자동차 번호판 인식은 이미 상용화된
연구들이 다수 존재하며 높은 감지율과 인식 정확도에 도달하였다. 자동차 번호판 인식에 관한 최근 연구로는 Li 외 2인의 연구(1)가 있다. 그들은 객체 감지 모델 중 하나인 Faster R-CNN(2)을 사용하여 자동차 이미지에서 번호판을 감지한 뒤 번호판의 문자를 CRNN(4)을 사용하여 인식하는 방법을 제안하였다. 본 연구의 숫자 인식을 위한 과정은 Li 등의 논문에서 아이디어를 얻었다. Li 등의 논문에서 제안하는 방법을
전력 계량기에 적용하여 숫자 영역을 감지하고 인식하는 것은 가능하나 차량 이미지 대신 계량기 이미지로 모델을 학습하는 작업 필요하다. 이를 위해 본
연구에서는 모델 학습과 성능 평가를 위한 데이터 집합을 직접 구축하였다. 또한 객체 감지 모델로 Faster R-CNN을 대신하여 조금 더 나은 성능을
보이는 YOLO를 사용한다.
3. 제안하는 시스템
3.1 데이터 집합
모델의 학습과 성능 평가를 위하여 한국에서 판매되는 두 종류의 아날로그 전력 계량기 이미지들로 데이터 집합을 생성하였다. 생성한 데이터 집합은 이미지와
이미지 속에 숫자 영역을 경계 상자로 지정하여 얻은 위치 정보가 포함된 Pascal VOC 형식(10)의 XML파일의 쌍으로 구성되며, 각 파일의 이름에는 숫자 영역에 표시된 네 자리 숫자를 포함한다. 각 이미지의 해상도는 2160x2160이며, RGB
컬러 이미지이다. 데이터 집합의 이미지는 모두 12000장이며, 한 종류의 계량기당 6000장이다. 계량기에 표시되는 숫자는 0000~0999 사이의
네 자리 숫자이며, 각 숫자별로 6개의 다른 시점에서 촬영된 이미지들이다. 이 후 논문에서는 두 종류의 계량기 데이터 집합을 구분하기 위해 meter1과
meter2로 지칭하겠다.
그림. 1. 데이터 집합의 계량기 이미지 샘플 (위: meter1, 아래: meter2)
Fig. 1. Sample of meter images in the dataset (top: meter1, bottom: meter2)
3.2 시스템 구조
계량기 이미지에서 카운터 숫자를 인식하기 위해서는 먼저 숫자 영역을 찾는 과정이 필요하다. 숫자 영역은 계량기 이미지 속의 다른 텍스트와 달리 검정색
상자로 둘러싸여 있어 상대적으로 구별하기 수월하나 그림 1의 meter2에 속한 계량기는 숫자 영역 외에 크기나 모양이 비슷한 또 다른 검정색 상자가 있어 잘못 감지할 소지가 있다. 또한 촬영 시점에 따라서
숫자 영역은 모양이 일정하지 않다. 따라서 검정색 상자 안에 흰색의 숫자가 4개 포함된 모양을 학습하여 하나의 객체로 식별하는 작업이 필요하다. 우리는
이 작업에 객체 감지 모델을 활용한다. 객체 감지 모델은 입력된 이미지에서 식별한 객체를 둘러싼 경계 상자의 위치와 함께 경계 상자가 그려진 이미지를
출력한다. 객체 감지의 결과로 얻은 경계 상자의 위치로 입력 이미지에서 숫자 영역을 잘라내어 광학 문자 인식의 입력으로 한다. 광학 문자 인식은 이미지에서
텍스트를 인식하기 위한 작업으로 입력된 이미지에서 문자열을 출력한다.
그림. 2. 카운터 숫자의 인식 과정
Fig. 2. Counter number recognition process
3.3 YOLO 모델 구조
본 논문에서는 숫자 영역을 찾기 위한 객체 감지 모델로 YOLO(1)를 사용한다. 우리가 사용한 모델은 원래의 YOLO에서 입력층의 크기와 각 계층의 필터수를 축소한 네트워크 구조를 가지는 모델이다. 원래의 YOLO에
비해 정지 화상에서의 객체 감지 성능은 떨어지지 않으면서 훈련 시간이 적게 드는 장점이 있다. 우리가 사용한 YOLO는 416⨯416 크기의 입력층을
가지며 9개의 합성곱 계층과 6개의 풀링 계층으로 구성되며, 1~6번째의 합성곱 계층 뒤에는 풀링 계층이 연결된다. 1~8번째 합성곱 계층은 활성화
함수로 leaky ReLU를 사용하며, 마지막 합성곱 계층은 linear를 사용한다. 마지막 계층의 필터는 30개이며, 이는 한 개의 클래스를 분류하기
위한 개수로 숫자 영역만을 감지하기 위하여 공개된 축소화한 YOLO에서 마지막 계층의 필터수를 조정하였다. YOLO를 제안한 Redmon외 3인의
연구(3)에서의 YOLO 신경망은 입력층의 크기가 448⨯448이며, 필터의 수는 약 8천개이다. 이에 비해 우리가 사용한 축소화한 YOLO는 약 3천개의
필터를 가진다. 원 논문에서의 YOLO 모델이 숫자 영역에 보다 더 근접하게 경계상자를 그리지만, 축소화한 YOLO만으로도 인식에 필요한 숫자 영역을
충분히 얻을 수 있으며, 신경망의 규모가 반 이하라는 점은 컴퓨팅 자원의 사용을 적게 사용한다는 이점이 있다. 이러한 이유로 우리는 축소화한 YOLO를
사용하였다.
표 1. YOLO 네트워크 구성
Table 1. YOLO network configurations
Layer
|
Size
|
Stride
|
filters
|
Activation
|
Conv. Layer1
|
3x3
|
1
|
16
|
leaky ReLU
|
MaxPool Layer1
|
2x2
|
2
|
-
|
-
|
Conv. Layer2
|
3x3
|
1
|
32
|
leaky ReLU
|
MaxPool Layer2
|
2x2
|
2
|
-
|
-
|
Conv. Layer3
|
3x3
|
1
|
64
|
leaky ReLU
|
MaxPool Layer3
|
2x2
|
2
|
-
|
-
|
Conv. Layer4
|
3x3
|
1
|
128
|
leaky ReLU
|
MaxPool Layer4
|
2x2
|
2
|
-
|
-
|
Conv. Layer5
|
3x3
|
1
|
256
|
leaky ReLU
|
MaxPool Layer5
|
2x2
|
2
|
-
|
-
|
Conv. Layer6
|
3x3
|
1
|
512
|
leaky ReLU
|
MaxPool Layer6
|
2x2
|
2
|
-
|
-
|
Conv. Layer7
|
3x3
|
1
|
1024
|
leaky ReLU
|
Conv. Layer8
|
3x3
|
1
|
1024
|
leaky ReLU
|
Conv. Layer9
|
1x1
|
1
|
30
|
linear
|
그림. 3. YOLO 모델 구조
Fig. 3. YOLO model structure
3.4 CRNN 모델 구조
본 논문에서는 객체 감지의 결과로 얻어진 숫자 영역에서 숫자를 인식하기 위하여 CRNN(4)을 사용한다. CRNN은 합성곱 신경망에 순환 신경망을 연결한 구조이다. CRNN은 7개의 합성곱 계층, 4개의 풀링 계층과 2개의 양방향 LSTM(11) 계층으로 구성된다. 모든 합성곱 계층은 활성화 함수로 ReLU를 사용한다. 1,2,4,6번째 합성곱 계층 뒤에 풀링 계층이 연결되며, 5,6번째
합성곱 계층에서는 배치 정규화를 한다. 마지막 합성곱 계층의 feature map은 feature sequence로 변환되어 양방향 LSTM 계층의
입력된다. 2개의 양방향 LSTM 모두 256개의 은닉층을 가진다. 입력층은 계량기 숫자 영역의 크기를 고려하여 128⨯32로 지정하였으며, 빈칸과
0~9, 총 11개의 문자를 인식하도록 출력층의 크기를 32⨯11로 지정하였다.
그림. 4. CRNN 모델 구조
Fig. 4. CRNN model structure
표 2. CRNN 네트워크 구성
Table 2. CRNN network configurations
Layer
|
Size
|
Stride
|
filters
|
Activation
|
Conv. Layer1
|
3x3
|
1
|
64
|
ReLU
|
MaxPool Layer1
|
2x2
|
2
|
-
|
-
|
Conv. Layer2
|
3x3
|
1
|
128
|
ReLU
|
MaxPool Layer2
|
2x2
|
2
|
-
|
-
|
Conv. Layer3
|
3x3
|
1
|
256
|
ReLU
|
Conv. Layer4
|
3x3
|
1
|
256
|
ReLU
|
MaxPool Layer3
|
2x2
|
1x2
|
-
|
-
|
Conv. Layer5
|
3x3
|
1
|
512
|
ReLU
|
Batch Normalization
|
-
|
Conv. Layer6
|
3x3
|
1
|
512
|
ReLU
|
Batch Normalization
|
-
|
MaxPool Layer4
|
2x2
|
1x2
|
-
|
-
|
Conv. Layer7
|
3x3
|
1
|
1024
|
ReLU
|
Map-to-Sequence
|
reshape(-1,512)
|
Bidirectional-LSTM1
|
hidden units : 256
|
Bidirectional-LSTM2
|
hidden units : 256
|
Transcription
|
classes=11
|
4. 시스템 평가
4.1 실험 환경 및 모델 훈련
INTEL i7-8700 3.2GHz CPU, 8GB의 시스템 메모리에 NVIDIA gtx-1080 ti GPU(3584개의 cuda코어, 11GB의
메모리)가 2개 장착된 머신에서 실험을 진행하였다. YOLO(3)와 CRNN 모두 TensorFlow(12)라이브러리로 모델을 구현하였다. 데이터 집합의 12000개의 샘플 중 1200개를 모델 훈련에 사용하였고 나머지 10800개를 성능 평가에 사용하였다.
YOLO와 CRNN을 별도로 훈련하였고 예측 단계에서 훈련된 두 모델을 연결하였다.
그림. 5. 훈련 이미지 전처리 (좌: YOLO, 우: CRNN)
Fig. 5. Training image preprocessing (left: YOLO, right: CRNN)
YOLO 모델을 훈련하는 과정에서 시간을 절약하기 위하여 입력층의 크기에 맞게 이미지 크기를 2160⨯2160에서 416⨯416로 축소한 이미지들과
이에 맞게 값이 수정된 축소한 이미지와 쌍을 이루는 XML파일들을 훈련 데이터를 구성하였다. CRNN은 선명한 글자로 훈련하기 위해 축소한 이미지가
아닌 원본에서 경계 상자 영역을 잘라내어 입력층의 크기에 맞게 크기를 조정한 이미지들과 이미지 파일 이름의 앞 4글자를 레이블로 사용하여 훈련 데이터를
구성하였다. CRNN의 훈련에는 손실함수로 CTC(Connectionist Temporal Classification)(13)를 사용하며 YOLO의 손실함수는 수식(1)(3)과 같다. 전처리된 훈련 데이터로 두 모델을 훈련하는데 사용한 최적화 알고리즘은 Adam optimizer이며, 두 모델 모두 동일하게 learning
rate는 0.0001, batch size는 12로 하여 400세대 훈련하였다.
4.2 성능 평가 도구
모델의 성능을 평가하기 위한 도구로 AP(Average Precision)를 사용하였다. 정확한 인식을 위해서는 경계 상자 내부에 4개의 숫자가 모두
있어야 한다. 따라서 객체 감지 모델이 감지한 경계 상자 영역과 실제 경계 상자 영역의 IoU(Intersection over Union)(10)가 0.7이상인 것을 정확히 감지한 것으로, 경계 상자가 둘 이상이거나 없는 것은 잘못 감지한 것으로 간주하였다. 또한 인식 성능은 CRNN 모델이
출력한 문자열과 실제 이미지의 텍스트가 일치하면 정확히 인식한 것으로, 한 글자라도 틀리면 잘못 인식한 것으로 간주하였다.
4.3 객체 감지 모델 성능 비교
우리는 자동차 번호판 인식에 관한 Li 외 2인의 연구에서 검증된 객체 감지 모델인 Faster-RCNN(2)보다 계량기에서 숫자영역을 감지하는 문제에 YOLO가 더 적합하다는 점을 검증하기 위하여 두 모델의 성능을 비교하였다. 두 모델 모두 동일하게 learning
rate는 0.0001, batch size는 12로 하여 400세대 훈련하였으며, 훈련에 사용된 이미지의 해상도는 2160×2160이다.
표 3. YOLO와 Faster-RCNN 비교
Table 3. Comparison between YOLO and Faster-RCNN
Model
|
Dataset
|
Training
Images
|
Test
Images
|
Detection
Performance
(%)
|
Detection
Speed
(ms)
|
YOLO
|
meter1
|
600
|
5400
|
99.90
|
110
|
meter2
|
600
|
5400
|
99.85
|
107
|
meter1
+
meter2
|
1200
|
10800
|
99.84
|
109
|
Faster-RCNN
|
meter1
|
600
|
5400
|
99.64
|
212
|
meter2
|
600
|
5400
|
99.42
|
212
|
meter1
+
meter2
|
1200
|
10800
|
99.41
|
213
|
두 모델 모두 meter1과 meter2로 각각 훈련하여 다른 데이터 집합에 교차검증 하였을 때는 감지가 되지 않았으며, 표 1에서 보이는 결과와 같이 YOLO(3)가 Faster-RCNN에 비하여 모든 데이터 집합에 있어 더 나은 감지 성능을 보였고, 감지 속도 역시 평균적으로 두 배에 가깝게 빨랐다. 이는
구조가 단순하다는 점에서 기인한 결과라 판단되며, GPU를 사용하지 않은 제한적인 성능을 가지는 머신에서 시스템을 구동한다면 감지하는데 걸리는 시간의
차이가 더 커질 것이라 예상된다. 이런 점에서 볼 때, YOLO가 더 적합한 모델이라 할 수 있겠다.
4.4 YOLO 학습
YOLO(3)의 감지 성능을 최대로 얻기 위한 적합한 훈련 세대를 찾기 위하여 100세대마다 감지 성능을 측정하였다. 100세대를 훈련하였을 때는 경계상자를 그리지
못하였고, 200세대부터 점차 증가하여 400세대에 이르러 99.84%의 감지 성능을 보였으며, 이후로는 더 이상 증가하지 않았다.
표 4. 200, 300, 400세대 훈련시의 감지 성능
Table 4. Detection performance when training 200, 300, 400 epochs
Model
|
Dataset
|
Epochs
|
Detection
Performance
(%)
|
YOLO
|
meter1
+
meter2
|
200
|
79.35
|
300
|
91.52
|
400
|
99.84
|
해상도가 2160×2160인 1200장의 이미지로 400세대 훈련을 하였을 때, 49.68시간이 소요되었다. 학습에 걸리는 시간을 단축할 방법으로
YOLO의 입력층과 동일하게 훈련에 사용할 이미지의 크기를 416×416으로 축소하여 같은 양을 훈련하였다. 그 결과 3.2시간이 걸렸으며, 감지
성능은 소폭 감소하였지만 훈련 시간을 크게 줄일 수 있었다.
표 5. 훈련 이미지 해상도에 따른 성능과 훈련 시간
Table 5. Performance and training time according to training image resolution
Model
|
Dataset
|
Training
Image
Resolution
|
Detection
Performance
(%)
|
Training
Time
(hour)
|
YOLO
|
meter1
+
meter2
|
2160×2160
|
99.84
|
49.68
|
416×416
|
99.81
|
3.2
|
4.5 인식 성능 평가
우리는 두 모델을 각각 자체의 성능을 테스트하였고, 또한 두 모델을 연결한 전체 시스템의 인식 성능을 테스트하였다. 표 6은 전제 이미지가 아닌 숫자영역만을 잘라낸 이미지로 CRNN(4)을 실험한 결과이다. 테스트한 10800개의 숫자영역 이미지에서 10658개의 텍스트를 정확히 인식하였으며 98.68%의 성능을 보였다.
표 6. CRNN 인식 성능
Table 6. CRNN recognition performance
Model
|
True Positive /
Test Images
|
Recognition
Performance
(%)
|
CRNN
|
10658 / 10800
|
98.68
|
표 5는 YOLO(3)와 CRNN을 연결한 모델의 성능을 평가한 결과이다. YOLO는 10800개의 테스트 이미지 중 10780개의 이미지에 정확히 숫자 영역을 감지하였으며,
CRNN은 이들 중 10619개의 텍스트를 정확히 인식하였다. 결과적으로 시스템 전체의 성능은 98.32%을 보였다. CRNN의 성능이 숫자 영역만을
가지고 테스트한 결과보다 소폭 감소한 이유는 CRNN에서 인식할 수 있는 숫자 영역을 YOLO에서 감지하지 못했기 때문이다. 이를 개선하기 위해서는
YOLO가 감지하지 못한 이미지들로 추가적인 학습을 한다면 성능을 더 높일 수 있을 것이라 기대한다.
표 7. 전체 시스템 성능
Table 7. Overall system performance
Stage
|
True Positive
|
Detection
Performance
(%)
|
Recognition
Performance
(%)
|
YOLO
|
10780
|
99.81 (10780/10800)
|
-
|
CRNN
|
10619
|
-
|
98.50
(10619/10780)
|
overall
|
-
|
-
|
98.32
(10619/10800)
|
5. 결 론
본 논문에서는 종류에 우리는 두 종류의 심층 신경망을 결합하여 계량기 이미지에서 숫자 영역을 읽는 방법을 제안하였다. 우리가 제안한 방법은 영상 처리
기술을 사용한 연구들에 비해 범용성을 가지며 인식 성능 또한 우월하다. 그리고 기계 학습 방법을 적용한 다른 연구에 비해서도 우리가 선택한 신경망의
조합은 더 나은 성능을 보였다.
뛰어난 인식 성능 이외에 우리가 제안하는 방법의 또 다른 장점은 인식 능력의 확장이 용이하다는 점이다. 만약 새로운 종류의 계량기를 인식하려 한다면
우리의 방법은 시스템 구조의 변경 없이 추가적인 학습만으로 인식 능력을 확장할 수 있다. 본 논문에서는 전력 계량기에서 수치를 인식하는 방법을 적용하였지만,
카운터를 사용하여 수치를 표시하는 가스나 수도 계량기에도 우리의 방법을 적용한다면 자동으로 숫자를 인식할 수 있을 거라 기대한다.
Acknowledgements
This work was supported by “Human Resources Program in Energy Technology” of the Korea
Institute of Energy Technology Evaluation and Planning (KETEP), granted financial
resource from the Ministry of Trade, Industry & Energy, Republic of Korea. (No. 20194010201830).
Also, this work is financially supported by Korea Ministry of Environment (MOE) Graduate
School specialized in Integrated Pollution Prevention and Control Project.
References
H. Li, P. Wang, C. Shen, March 2019, Toward End-to-End Car License Plate Detection
and Recognition With Deep Neural Networks, in IEEE Transactions on Intelligent Transpor-
tation Systems, Vol. 20, No. 3, pp. 1126-1136
S. Ren, K. He, R. Girshick, J. Sun, 1 June 2017, Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks,, in IEEE Transactions on Pattern Analysis
and Machine Intelligence, Vol. 39, No. 3, pp. 1137-1149
J. Redmon, S. Divvala, R. Girshick, A. Farhadi, 2016, You Only Look Once: Unified,
Real-Time Object Detection, 2016 IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), Las Vegas, NV,, pp. 779-788
B. Shi, X. Bai, C. Yao, 1 Nov 2017, An End-to-End Trainable Neural Network for Image-Based
Sequence Recognition and Its Application to Scene Text Recognition, in IEEE Transactions
on Pattern Analysis and Machine Intelligence, Vol. 39, No. 11, pp. 2298-2304
L. A. Elrefaei, A. Bajaber, S. Natheir, N. AbuSanab, M. Bazi, 2015, Automatic electricity
meter reading based on image processing, 2015 IEEE Jordan Conference on Applied Electrical
Engineering and Computing Technologies (AEECT), Amman, pp. 1-5
A. Anis, M. Khaliluzzaman, M. Yakub, N. Chakraborty, K. Deb, 2017, Digital electric
meter reading recognition based on horizontal and vertical binary pattern, 2017 3rd
International Conference on Electrical Information and Communication Technology (EICT),
Khulna, pp. 1-6
H. Shuo, Y. Ximing, L. Donghang, L. Shaoli, P. Yu, 2019, Digital recognition of electric
meter with deep learning, 2019 14th IEEE International Conference on Electronic Measurement
& Instruments (ICEMI), Changsha, China, pp. 600-607
W Liu., D Anguelov., D Erhan., 2016, SSD: Single Shot MultiBox Detector, European
Conference on Computer Vision, pp. 21-37
C Cortes., V Vapnik., 1995, Support-vector networks, Machine learning, Vol. 20, No.
3, pp. 273-297
M. Everingham, L. Van Gool, C. K. I. Williams, 2010, The pascal visual object classes(VOC)
challenge, Inter- national Journal of Computer Vision 88, pp. 303-338
A. Graves, M. Liwicki, S. Fernández, R. Bertolami, H. Bunke, J. Schmidhuber, May 2009,
A Novel Connectionist System for Unconstrained Handwriting Recognition, in IEEE Transactions
on Pattern Analysis and Machine Intelligence, Vol. 31, No. 5, pp. 855-868
M Abadi., P Barham., J Chen., 2016, Tensorflow: a system for large-scale machine learning,
Operating Systems Design and Implementation (OSDI), Vol. 16, No. , pp. 265-283
A. Graves, S. Fernandez, F. Gomez, 2006, Connectionist temporal classification: Labellingunsegmented
sequence data with recurrent neural networks, in International Conference on Machine
Learning (ICML), pp. 369-376
저자소개
received his MS in Computer Science from Kwangwoon University and is currently a Ph.D
candidate in the Dept of Computer Science atthe same institution.
His research interestsinclude machine learning and AI.
received his BS in Computer Engineering from Seoul National University, MS in Computer
Science from Univ. of Minne- sota, Minneapolis, and Ph.D in Computer Science from
Univ, of Illinois at Urbana- Champaign.
He is currently a Professor in School of Software, Kwangwoon University. Seoul,
Korea, His research interests include Machine Learning, Data Mining, and Artificial
Intelligence.