1. 서 론
ICT(Information and Communications Technology) 분야의 발전과 함께 LED 조명에 ICT 기술을 융합한 스마트
조명 시스템에 대한 필요성과 관심도 점점 높아지고 있다. IoT(Internet of Things)나 AI(Artificial Intelligence)
등의 ICT 기술을 LED에 융합할 경우 단순히 특정 장소를 밝게 하는 기능만 있던 기존 조명과는 다르게 센서 측정값, Open API(Application
Programming Interface) 수집 데이터, 무선통신 제어 등을 활용해 다양한 서비스를 구현하고 제공할 수 있다. 이러한 이유로 에너지
절감, 사용자 만족도 향상, 수면의 질 향상 등을 위한 다양한 스마트 조명 시스템이 제안되었다[1-3].
인간중심조명(human centric lighting)은 일광 같은 환경적 요인 외에도 사용자의 행동 같은 개인적인 요인도 고려해 시각적, 생물학적,
정서적 측면에서 사용자에게 최적화될 수 있는 조명이다[4]. 기존 감성조명의 개념을 넘어서 빛의 비시각적 효과까지 다루는 인간중심조명은 차세대 조명을 이끌 키워드로 부상하고 있으며[5], 다양한 관련 연구들도 제안되어 왔다[6-10]. Trivellin 등은 2800K에서 5500K까지의 색온도 제어 범위와 90 이상의 CRI(Color Rendering Index)를 가지며
일주기 리듬(circadian rhythm) 제어가 가능한 인간중심조명 시스템을 제안했다[6]. Choi 등은 색온도가 초등학생의 성적에 미치는 영향을 평가하고, 집중, 표준, 휴식 상황에 최적화된 조명 환경을 제공하는 시스템을 제안했다[7]. Guerry 등은 일상생활 중 노인의 일주기 리듬 제어를 통해 수면의 질을 향상시키는 인간중심조명을 제안했다[8]. Madias 등은 사무공간에서 시각적 편안함을 제공하고, 일주기 리듬을 최적화하며, 에너지 소비를 최소화하는 인간중심조명을 제안했다[9]. Roberts 등은 일주기 리듬을 제어하고 시각적 편안함과 안전성을 제공하는 재택근무를 위한 인간중심조명을 제안했다[10].
하지만, 사용자에 따라서 고유한 특성이 다를 수 있으며, 편안함이나 쾌적함을 느끼는 조명 조건에도 차이가 있을 수 있다[11-12]. 특히, 밝기나 색온도 등의 조명 제어 조건은 사용자의 시각적 인식과 기분에 영향을 미칠 수 있지만, 사용자에 따라서 조명 제어 조건이 미치는 영향은
다를 수 있다[13]. 때문에, 이를 보완하고자 조명 사용 시 수집된 데이터와 기계학습방법을 활용하여 사용자의 선호 조명 환경을 분석하고, 이를 기반으로 개인화된 최적의
조명 제어 조건을 예측하는 방법들이 제안되었다[14-16]. Yin 등은 사무공간을 대상으로 조명 사용 시의 시간, 기상, 조도 등의 데이터와 기계학습방법을 사용해 사용자가 선호한 조명 밝기를 예측하는 회귀모델을
발표했다[14]. REPTree(Reduced Error Pruning Tree) 기반 회귀모델로 최대 27.65%의 RAE(Relative Absolute Error)로
사용자가 선호한 조명의 밝기를 예측할 수 있었다. Ma 등은 사무실 환경에서 조명 사용 시의 시간, 기상, 조도, 휘도 등의 데이터와 기계학습방법을
사용해 총 3단계의 조명 밝기 중 사용자가 선호한 밝기를 예측하는 분류모델을 제안했다[15]. 랜덤 포레스트 모델을 사용하여 최대 86%의 정확도(accuracy)로 사용자가 선호한 조명 밝기를 예측할 수 있었다. Zhang 등은 주거공간을
대상으로 조명을 켜고 끈 시간에 대한 시계열 데이터와 기계학습방법을 사용해 선호하는 조명의 on/off 상태를 예측하는 시계열 모델을 발표했다[16]. GABPNN(Genetic Algorithm based Back Propagation Neural Network) 모델의 성능이 가장 좋았고,
조명을 켜고 끈 시간을 예측하는 시계열 모델의 MSE(Mean Squared Error)는 각각 0.38와 14.91이었다.
개인화된 최적의 조명 제어 조건을 예측해본 기존 연구들에서는 선호하는 조명의 밝기나 on/off 제어 상태를 예측하는 모델들이 제안되었다[14-16]. 모델 구축을 위해서는 공통적으로 조명을 사용한 시간과 관련된 변수들이 사용되었고, 독립변수가 종속변수에 미치는 영향을 기반으로 특정 상황을 예측하는
회귀모델이나 분류모델에서는 모두 기상 관련 변수들이 사용되었다. 하지만, 조명의 밝기 외에 색온도도 사용자가 편안함이나 쾌적함을 느끼는 조명 환경과
관련성이 높은 제어 조건이다[17-18]. 때문에, 랜덤 포레스트 등의 기계학습방법을 사용해 개인화된 선호 색온도를 예측하는 방법이 제안될 경우 기존 보고된 선호 조명 밝기를 예측하는 모델들과
같이 사용자 개인의 특성과 선호도를 고려하는 제어 방법으로 활용될 수 있다. 또한, 기존 연구에서 활용되었던 요일, 시각 등의 시간 정보와 기온,
상대습도 등의 기상 정보는 사용자의 선호 색온도와도 관련성이 있는 것으로 보고되었다[19-21]. 때문에, 기기 내부에서 수집 가능한 조명 제어 상태와 Open API(Application Programming Interface)를 통해 수집
가능한 시간 및 기상 관련 데이터를 활용한 모델이 구축될 경우, 센서 등의 추가적인 장치를 설치할 필요 없이 적용할 수 있는 조명 제어 방법으로 활용될
수 있다.
본 논문에서는 주거공간에서 조명 사용자의 선호 색온도를 예측하는 랜덤 포레스트 모델을 제안한다. 구현한 LED 조명 장치와 제어기를 주거공간에 설치한
후 총 352시간 동안의 실험을 통해서 기온, 상대습도, 강수량, 풍속, 시각, 오전/오후 여부, 요일, 주말/평일 여부, 조명 사용 여부, 색온도
설정값을 1시간 간격으로 수집했다. 수집된 데이터 중 조명을 사용한 231시간의 데이터를 추출해 사용했고, 데이터의 특성과 상관성을 분석해 모델의
입력변수를 선정했다. 랜덤 포레스트 모델은 전체 데이터의 약 80%인 트레이닝 셋(training set)을 대상으로 5차 교차검증(5-fold cross
validation)을 사용해 최적의 모델을 구축했다. 모델의 성능은 전체 데이터의 약 20%인 테스트 셋(test set)을 사용하여 정확도, 정밀도(precision),
재현율(recall), F1-점수(F1-score)를 계산해 평가했다.
2. 실험 방법
2.1 선호 조명 제어 조건 예측 연구
조명 제어 시 일광 같은 환경적 요인 외에도 사용자의 행동 같은 개인적인 요인도 시각적, 생물학적, 정서적 측면에서 사용자에게 최적화된 조명 환경
제공을 위해 활용될 수 있다[4]. 사용자에 따라서 편안함이나 쾌적함을 느끼는 조명 조건이나 고유한 특성은 다를 수 있기에, 조명 사용 시 수집한 데이터와 기계학습방법을 활용하여
개인화된 최적의 조명 제어 조건을 예측하는 방법들이 제안되었다[14-16].
Yin 등은 사무공간에서 사용자가 선호한 조명의 밝기를 예측하는 회귀모델을 제안했다[14]. 데이터로는 사무공간에서 수집한 조명 사용 시의 시간, 일출시간, 일몰시간, 기상상태, 조도, 조명 밝기 제어값에 대한 정보를 사용했다. 기계학습방법은
REPTree, M5P(M5 Prime), DS(Decision Stump)를 사용했다. 의사결정나무 기반 모델인 REPTree 모델의 성능이 가장
좋았고, 총 5가지 변수를 사용해 27.65%의 RAE로 사용자가 선호한 조명의 밝기를 예측할 수 있었다.
Ma 등은 사무공간에서 총 3단계(어두움, 보통, 밝음)의 조명 밝기 중 사용자가 선호한 밝기를 예측하는 다중분류모델을 제안했다[15]. 데이터로는 사무공간을 모사한 실험실 환경에서 수집된 조명 사용 시의 시각, 요일, 실내 조도, 자연광 조도, 휘도, DGI(Daylight Glare
Index), 기상조건, 그림자 위치, 조명 위치, 세부 조명 위치, 안경 착용 여부, 작업 특성, 사용자 선호 조명 밝기에 대한 정보를 사용했다.
기계학습방법으로 랜덤 포레스트, 분류 트리(classification tree), KSVM(Kernel Support Vector Machine),
GMM(Gaussian Mixed Model)을 사용했다. 의사결정나무 기반 모델인 랜덤 포레스트 모델의 성능이 가장 좋았고, 총 12가지 변수를
사용해 86%의 정확도로 사용자가 선호한 조명 밝기를 예측할 수 있었다.
Zhang 등은 주거공간에서 조명을 켜고 끈 시간을 예측하는 시계열 모델을 제안했다[16]. 데이터로는 주거공간에서 사용자가 조명을 켜고 끈 시간에 대한 정보를 수집해 구축한 시계열 데이터를 사용했다. 기계학습방법은 BPNN(Back Propagation
Neural Network), GABPNN, SVR(Support Vector Regression), KNN(K-Nearest Neighbors),
의사결정나무, 랜덤 포레스트, 다항회귀(polynomial regression), 능형회귀(ridge regression), LASSO(Least
Absolute Shrinkage and Selection Operator) 회귀, Elastic-Net 회귀를 사용했다. 조명을 켠 시간을 예측하는
시계열 모델과 조명을 끈 시간을 예측하는 시계열 모델을 각각 구축해본 결과, 두 모델 모두 GABPNN 모델의 성능이 가장 좋았으며, 조명을 켠 상태는
0.38의 MSE로, 조명을 끈 상태는 14.91의 MSE로 예측할 수 있었다.
사용자의 선호 조명 제어 조건을 예측하는 기존 모델 중 선호하는 조명의 밝기를 예측하는 회귀모델과 분류모델에서는 REPTree, 랜덤 포레스트 등의
의사결정나무 기반 모델이, 조명을 켜고 끈 시간을 예측하는 시계열 모델에서는 신경망 기반 모델인 GABPNN의 성능이 가장 좋은 것으로 나타났다.
모델 구축을 위해 사용된 변수의 경우, 기존 모델들에서는 모두 입력변수로 조명 사용 시각, 요일 등의 시간 정보들이 사용되었다. 독립변수가 종속변수에
미치는 영향을 기반으로 특정 상황을 예측하는 회귀모델과 분류모델에서는 기상상태 등의 기상 정보들도 시간 정보들과 함께 입력변수로 사용되었다.
2.2 선호 색온도 예측 방법
본 논문에서는 사용자의 선호 색온도를 예측하는 기계학습모델을 구축했다(그림 1). 기계학습모델로는 선호 조명 제어 조건 예측을 위한 다중분류모델에서 성능이 좋은 것으로 보고된 랜덤 포레스트 모델을 사용했다[15]. 랜덤 포레스트 모델은 부트스트랩(bootstrap) 방식을 사용해 다수의 표본을 생성하고 의사결정나무를 각각 적용해 그 결과를 종합하는 방법이다[22]. 랜덤 포레스트 모델은 다수의 변수 사용 시 예측력이 뛰어나고 안정적인 모델을 제공한다[23]. 랜덤 포레스트 모델은 지정한 수만큼의 독립적인 의사결정나무들로 구성된다. 의사결정나무를 생성하기 위한 데이터는 전체 데이터로부터 각각 무작위하게
배정받으며, 각 의사결정나무는 배정받은 데이터가 노드로 들어가 조건을 형성하고 조건에 따라 다시 가지를 확장하는 과정을 반복한다. 최종 분류 결과는
각 의사결정나무들의 결과를 종합해 다수결 원칙에 의해 결정된다.
그림 1. 랜덤 포레스트 모델
Fig. 1. Random Forest Model
식 (1)은 랜덤 포레스트 내부에 생성된 의사결정나무의 예측 결과를 나타낸다. $T_{k}$는 $k$번째 의사결정나무를, $d_{k}$는 의사결정나무에 입력된
데이터를, $R_{k}$는 $k$번째 의사결정 나무의 예측 결과를 의미한다. 식 (2)는 랜덤 포레스트 모델의 예측 결과를 나타낸다. $K$는 생성된 의사결정나무의 수를, $P$는 랜덤 포레스트 모델의 예측 결과를 의미한다. $K$개의
의사결정나무에서 도출된 예측 결과 중 가장 많은 빈도로 도출된 결과가 모델의 최종적인 예측 결과로 출력된다.
랜덤 포레스트는 입력변수에 대한 변수중요도(variable importance)를 계산할 수 있어 주요변수 탐색에도 활용할 수 있다[23]. 랜덤 포레스트의 변수중요도는 의사결정나무에서 계산되는 불순도(impurity)를 기반으로 도출된다. 랜덤 포레스트가 분류모델로 활용될 경우 일반적으로
불순도는 지니계수(Gini Index)나 엔트로피(entropy)를 기반으로 계산된다[24]. 식 (3)은 분류모델에서 지니계수를 기반으로 계산되는 불순도를 나타낸다. $p_{i}$는 노드 $N$에서 범주 $i$의 비율을, $C$는 총 범주 수를, $G(N)$는
노드 $N$의 불순도를 의미한다. 의사결정나무의 노드를 분할할 경우 불순도는 감소하며, 특정 노드 $N$이 두 개의 하위 노드로 나누어졌을 때 불순도의
감소는 식 (4)로 나타낼 수 있다. $G(N_{L})$과 $G(N_{R})$은 두 개의 하위 노드의 불순도를 의미한다. $M$, $M_{L}$, $M_{R}$은
각각 노드 $N$, $N_{L}$, $N_{R}$에 입력된 데이터의 수를 의미한다. 식 (5)는 랜덤 포레스트의 변수중요도를 나타낸다. $K$는 랜덤 포레스트 모델에 생성된 의사결정나무의 수를, $nodes_{k}$는 $k$번째 의사결정나무에서의
모든 노드 집합을 의미한다. $V(x)$는 변수 $x$의 변수중요도를 의미한다. 변수중요도는 예측 모델의 사용된 각 입력변수의 설명력을 정량적으로
나타내는 지표로, 입력변수들의 변수별 중요도를 파악하고 최적의 입력변수를 선정하는데 활용할 수 있다[25]. 본 논문에서는 랜덤 포레스트 변수중요도와 추가로 Phik 상관계수(correlation coefficient)를 활용해 수집된 기상(기온, 상대습도,
강수량, 풍속) 및 시간(시각, 오전/오후 여부, 요일, 주말/평일 여부) 정보와 사용자의 선호 색온도와의 관련성을 파악하고, 예측 모델 구축을 위한
최적의 입력변수를 선정했다[26].
2.3 데이터 수집 및 분석 방법
LED 조명 장치와 제어기로 구성되어, 제어기로 LED 조명의 전원 및 색온도를 설정하고, 조명 사용 시의 조명 설정값, 기상, 시간 등의 정보를
수집하여 제어기에 저장하는 장치를 구현했다(그림 2). LED 조명 장치는 LED, SMPS (Switching Mode Power Supply), MCU(Micro Controller Unit),
Wi-Fi 모듈로 구성된다. SMPS는 IRM-03-5 (MEAN WELL USA Inc., USA)를, MCU는 STM8L151 (STMicro
electronics, Suisse)를 사용했다. Wi-Fi 모듈로는 ESP32(Espressif Systems, China)를 사용했다. 조명의
색온도가 2600K에서 3150K 사이면 전구색(warm light)으로, 3200K에서 3700K 사이면 온백색(warm white)으로, 3900K에서
4500K 사이면 백색(white)으로, 4600K에서 5400K 사이면 주백색(daylight)으로 분류된다[27]. LED 조명 장치는 총 4단계(전구색, 온백색, 백색, 주백색)로 조명의 색온도를 설정할 수 있도록 구현했다. 제어기는 GUI(Graphical
User Interface), 데이터 수집부, Wi-Fi 모듈, 메모리로 구성되며, Raspberry Pi 3와 파이썬을 사용해 구현했다. GUI는
LED 조명 장치의 전원과 색온도를 설정하고자 구현했다. 데이터 수집부는 조명 사용 시의 기온, 상대습도, 강수량, 풍속, 시각, 오전/오후 여부,
요일, 주말/평일 여부, 조명 사용 여부, 색온도 설정값에 대한 정보를 수집하고자 구현했다. 수집 정보 중 기상 정보인 기온, 상대습도, 강수량,
풍속은 Open API(Application Programming Interface)를 사용해 기상청의 초단기실황 데이터에서 수집했다[28]. Wi-Fi 모듈은 LED 조명 장치와 Wi-Fi로 연동하며 설정한 전원과 색온도를 LED 조명 장치로 전송하고, LED 조명 장치의 상태값을 전송받고자
구현했다. 메모리에는 수집한 데이터를 CSV 파일로 저장했다.
그림 2. LED 조명 장치와 제어기의 블록 다이어그램
Fig. 2. Block diagram of LED lighting device and controller
LED 조명 장치와 제어기의 색온도 설정 기능을 확인하고, 암실에 LED 조명 장치와 제어기를 설치하고 색온도 설정값을 변경하며 색온도와 조도를 측정했다(그림 3). 색온도와 조도는 CL-200A(KONICA MINOLTA, Japan)를 사용해서 수평면을 기준으로 1.4 m 거리에서 측정했다. 표 1은 색온도 및 조도 측정 결과를 나타낸다. 색온도의 경우 전구색은 3088K, 온백색은 3601K, 백색은 4372K, 주백색은 5349K의 색온도가
측정되어 모두 각 범주에 해당하는 색온도가 측정됨을 확인했다. 조도의 경우 각 색온도 설정값에 대한 측정값의 평균 및 표준편차가 657.80 ± 9.19
lux로 측정되어 색온도 설정값에 따른 조도의 차이는 거의 없는 것으로 나타났다.
그림 3. LED 조명 장치의 색온도 제어
Fig. 3. Color temperature control of LED lighting device
표 1 색온도 설정값에 따른 색온도 및 조도 측정 결과
Table 1 Color temperature and illuminance measurement results according to color temperature
settings
색온도 설정값
|
색온도 측정값(K)
|
조도 측정값 (lux)
|
전구색 (2600K ~ 3150K)
|
3088
|
664.7
|
온백색 (3200K ~ 3700K)
|
3601
|
646.6
|
백색 (3900K ~ 4500K)
|
4372
|
654.0
|
주백색 (4600K ~ 5400K)
|
5349
|
665.9
|
구현한 LED 조명 장치와 제어기를 가로 412cm, 세로 308cm, 높이 295cm의 직사각형 형태의 주거공간에 설치한 후 총 352시간 동안
실험을 수행했다. LED 조명 장치는 실험 장소 중앙의 천장부에 설치했고, 조명의 전원과 색온도는 Wi-Fi로 연결된 제어기의 GUI를 통해 설정했다.
실험 중의 기온, 상대습도, 강수량, 풍속, 시각, 오전/오후 여부, 요일, 주말/평일 여부, 조명 사용 여부, 색온도 설정값에 대한 정보는 1시간
간격으로 제어기를 통해 수집했다. 색온도 설정값은 총 4가지의 색온도 설정값 중 측정 간격인 1시간 동안 가장 많이 설정한 값을 대푯값으로 기록했다.
데이터 특성분석과 모델의 구축 및 평가에는 총 352시간의 실험 중 조명을 사용한 231시간 동안 수집된 기온, 상대습도, 강수량, 풍속, 시각,
오전/오후 여부, 요일, 주말/평일 여부, 색온도 설정값에 대한 데이터를 사용했다. 연속형 변수들(continuous variables)인 기온,
상대습도, 강수량, 풍속 데이터의 특성은 기술 통계를 통해서, 범주형 변수들(categorical variables)인 요일, 주말/평일 여부, 시각,
오전/오후 여부, 색온도 설정값 데이터에 대한 특성은 빈도분석을 통해서 알아봤다. 또한, 각 변수(기온, 상대습도, 강수량, 풍속, 요일, 주말/평일
여부, 시각, 오전/오후 여부)와 색온도 설정값과의 상관관계를 알아보고자 PhiK 상관계수를 계산했다[29]. 상관계수를 통해서 선호 색온도와 유의한 상관성이 있다고 나타난 변수는 모델 구축을 위한 입력변수로 사용했다.
2.4 모델 구축 및 평가 방법
표 2는 색온도 설정값에 따른 트레이닝 셋과 테스트 셋의 수를 나타낸다. 전체 데이터(n = 231) 중 약 80%의 데이터(n = 184)는 모델 구축을
위한 트레이닝 셋으로, 약 20%의 데이터(n = 47)는 성능 평가를 위한 테스트 셋으로 사용했다[30]. 데이터 분류 시에는 색온도 설정값의 각 범주에 대한 데이터의 비율이 트레이닝 셋과 테스트 셋이 모두 동일하도록 무작위하게 분류했다[31].
표 2 색온도 설정값에 따른 트레이닝 및 테스트 셋 수
Table 2 Number of training and test set according to color temperature settings
범주
|
트레이닝 셋 (N)
|
테스트 셋 (N)
|
총합 (N)
|
전구색
|
35
|
9
|
44
|
온백색
|
52
|
13
|
65
|
백색
|
72
|
18
|
90
|
주백색
|
25
|
7
|
32
|
총합
|
184
|
47
|
231
|
그림 4는 모델 구축 및 평가 방법을 나타낸다. 랜덤 포레스트 모델은 의사결정나무의 수와 최대 입력변수의 수가 모델의 예측 성능에 영향을 줄 수 있다[32]. 때문에, 최적의 의사결정나무의 수와 최대 입력변수의 수를 도출하고자, 랜덤 포레스트 모델 구축 시 5차 교차검증을 실시했다. 교차검증 시 의사결정나무의
수는 10개, 100개, 200개, 300개, 400개, 500개로 변경하고, 각 노드에서 무작위로 선택되는 변수의 수는 최소 1개에서부터 최대 입력변수의
수까지 변경하며 정확도를 기준으로 최적의 값들을 격자 검색(grid search)했다. 또한, 사용한 입력변수도 모델의 성능에 영향을 줄 수 있다[32]. 입력변수에 따른 랜덤 포레스트 모델의 성능 변화를 알아보고자, 변수중요도를 계산하고 후진제거법을 적용해 변수중요도가 낮은 입력변수부터 하나씩 제거하며
최소 1개의 변수가 사용될 때까지 각각의 모형을 구축한 후, 교차검증 시 도출되는 정확도를 기준으로 최적의 입력변수를 선정해 모델을 구축했다[33].
그림 4. 모델 구축 및 평가 방법
Fig. 4. Construction and evaluation method of the model
구축한 모델의 성능은 테스트 셋을 대상으로 정확도, 정밀도, 재현율, F1-점수를 계산해 평가했다[34-35]. 아래의 식 (6), (7), (8), (9)는 각각 정확도, 정밀도, 재현율, F1-점수를 나타낸다. 식에서 TP(True Positive)는 특정 선호 색온도를 올바르게 예측한 사례의 수를,
TN(True Negative)은 특정 선호 색온도 외의 선호 색온도를 올바르게 예측한 사례의 수를 나타낸다. FP(False Positive)은
다른 선호 색온도를 특정 선호 색온도로 잘못 예측한 사례의 수를, FN(False Negative)은 특정 선호 색온도를 다른 선호 색온도로 잘못
예측한 사례의 수를 나타낸다. 즉, 정확도는 전체 사례 중 모델이 올바르게 예측한 사례의 비율을 나타낸다. 정밀도는 모델이 특정 선호 색온도를 예측한
전체 사례 중 선호 색온도를 올바르게 예측한 사례의 비율을, 재현율은 특정 선호 색온도를 선택한 전체 사례 중 모델이 올바르게 특정 색온도를 선택한
비율을 나타낸다. F1-점수는 정밀도와 재현율의 조화평균으로 계산된다. 모델의 구축 및 평가에는 Python을 사용했다.
3. 결과
3.1 데이터 분석 결과
표 3은 연속형 변수들인 기온, 상대습도, 강수량, 풍속 데이터의 특성을, 그림 5는 범주형 변수들인 요일, 주말/평일 여부, 시각, 오전/오후 여부, 색온도 설정값에 대한 빈도수를 나타낸다. 표 4는 각 변수와 색온도 설정값 간의 PhiK 상관분석 결과이다. 상관계수 값을 기준으로 시각, 오전/오후 여부, 온도, 상대습도, 풍속, 강수량, 요일,
평일/주말 여부 순으로 색온도 설정값과 상관성이 높은 것으로 나타났다. 시각, 오전/오후 여부, 온도, 상대습도는 모두 0.001보다 작은 P-값이
나타나 색온도 설정값과 유의한 상관성이 있는 것으로 나타났다. 반면, 풍속, 강수량, 요일, 평일/주말 여부는 모두 0.05보다 큰 P-값이 나타나
유의한 상관성이 없는 것으로 나타났다. 모델 구축 시에는 시각, 오전/오후 여부, 온도, 상대습도를 사용했다.
표 3 연속형 변수들의 데이터 특성
Table 3 Data characteristics of continuous variables
변수
|
N
|
Mean ± SD
|
최솟값
|
최댓값
|
온도(°C)
|
231
|
18.55 ± 2.32
|
13.8
|
26.1
|
상대습도(%)
|
231
|
84.13 ± 11.69
|
48.0
|
97.0
|
강수량(mm)
|
231
|
0.34 ± 1.76
|
0
|
18.5
|
풍속(m/s)
|
231
|
0.63 ± 0.58
|
0
|
3.5
|
그림 5. 범주형 변수들의 빈도수
Fig. 5. Frequency of categorical variables
표 4 PhiK 상관분석 결과
Table 4 Results of PhiK correlation analysis
순위
|
변수
|
r
|
P-값
|
1
|
시각
|
0.878
|
< 0.001
|
2
|
오전/오후 여부
|
0.475
|
< 0.001
|
3
|
온도
|
0.423
|
< 0.001
|
4
|
상대습도
|
0.402
|
< 0.001
|
5
|
풍속
|
0.253
|
0.077
|
6
|
강수량
|
0.201
|
0.141
|
7
|
요일
|
0.184
|
0.214
|
8
|
주말/평일 여부
|
0.012
|
0.397
|
3.2 모델 구축 결과
표 5는 랜덤 포레스트의 변수중요도를 나타낸다. 시각, 온도, 상대습도, 오전/오후 여부 순으로 변수중요도가 높은 것으로 나타났다. 변수 중 시각이 43.7%의
가장 높은 변수중요도가 도출되었고, 오전/오후 여부가 1.5%의 가장 낮은 변수중요도가 도출되었다. 표 6은 랜덤 포레스트 모델의 교차검증 결과이다. 입력변수로 시각, 온도를 사용하고 의사결정나무의 수를 100개로, 노드에서 선택되는 변수는 1개로 설정했을
때 선호 색온도 설정값 예측을 위한 최적의 모델인 것으로 나타났다. 추가로, 최적의 입력변수로 선정된 시각과 온도를 모두 사용한 모델과 입력변수로
시각이나 온도 중 하나의 변수만을 사용한 모델의 성능 차이를 비교해 보고자 입력변수로 시각이나 온도만을 사용한 모델을 교차검증을 적용해 각각 구축했다.
시각만을 사용한 모델은 의사결정나무의 수는 10개로, 노드에서 선택되는 변수는 1개로 설정했을 때 최적의 모델인 것으로 나타났다. 온도만을 사용한
모델은 의사결정나무의 수는 300개로, 노드에서 선택되는 변수는 1개로 설정했을 때 최적의 모델인 것으로 나타났다.
표 5 랜덤 포레스트 변수중요도
Table 5 Variable importance of random forest
순위
|
변수
|
변수중요도 (%)
|
1
|
시각
|
43.7
|
2
|
온도
|
32.0
|
3
|
상대습도
|
22.8
|
4
|
오전/오후 여부
|
1.5
|
표 6 랜덤 포레스트 모델의 교차검증 결과
Table 6 Cross-validation results of random forest model
입력변수
|
의사결정나무의
수 (N)
|
노드에서 선택되는 변수의 수 (N)
|
시각, 온도
|
100
|
1
|
시각
|
10
|
1
|
온도
|
300
|
1
|
3.3 성능평가 결과
표 7은 구축한 랜덤 포레스트 모델들의 성능을 테스트 셋을 사용해 평가한 결과를 나타낸다. 교차검증 시 최적의 모델로 선정되었던 랜덤 포레스트 모델은 총
2개의 변수(시각, 온도)를 사용해 74.47%의 정확도로 사용자의 선호 색온도 설정값을 예측할 수 있는 것으로 나타났다. 또한, 정밀도, 재현율,
F1-점수는 각각 73.50%, 74.47%, 73.74%인 것으로 나타났다. 시각이나 온도 중 하나의 변수만을 사용한 모델들은 시각과 온도 모두를
사용한 모델보다는 낮은 성능을 보였으며, 특히 온도만을 사용한 모델이 상대적으로 더 낮은 성능을 보였다. 시각만을 사용한 모델은 시각 및 온도를 사용한
모델보다 각각 약 6%씩 낮은 68.09%와 68.12%의 정확도와 F1-점수가 나타났다. 온도만을 사용한 모델은 시각 및 온도를 사용한 모델보다
각각 약 51%씩 낮은 23.40%와 23.07%의 정확도와 F1-점수가 나타났다.
표 7 테스트 셋을 사용한 성능평가 결과
Table 7 Performance evaluation results using the test set
입력 변수
|
정확도(%)
|
정밀도(%)
|
재현율(%)
|
F1-점수(%)
|
시각, 온도
|
74.47
|
73.50
|
74.47
|
73.74
|
시각
|
68.09
|
69.00
|
68.09
|
68.12
|
온도
|
23.40
|
22.98
|
23.40
|
23.07
|
4. 결 론
본 논문에서는 주거공간을 대상으로 시각, 온도 등 조명 사용자의 사용환경 데이터를 사용해 선호 색온도 설정값을 예측하는 랜덤 포레스트 모델을 구축하고
성능을 평가했다. 총 8가지 변수(기온, 상대습도, 강수량, 풍속, 시각, 오전/오후 여부, 요일, 주말/평일 여부)와 색온도 설정값 간의 상관관계를
상관계수와 랜덤 포레스트의 변수중요도로 알아봤다. 상관계수를 기준으로는 시각, 오전/오후 여부, 온도, 상대습도 순으로 색온도 설정값과 유의한 상관성이
있으며 풍속, 강수량, 요일, 평일/주말 여부는 색온도 설정값과 유의한 상관성이 없는 것으로 나타났다. 랜덤 포레스트의 변수중요도의 경우, 시각,
온도, 상대습도, 오전/오후 여부 순으로 색온도 설정값과 상관성이 높은 것으로 나타났다. 변수중요도가 낮은 입력변수부터 하나씩 제거하며 각각 랜덤
포레스트 모델을 구축해본 결과에서는 시각과 온도를 사용한 모델의 성능이 가장 좋은 것으로 나타났다. 본 논문에서 테스트 셋을 사용해 모델의 성능을
알아본 결과 랜덤 포레스트 모델은 시각, 온도 데이터를 사용해 주거공간에서 1시간 간격으로 조명 사용자의 선호 색온도 설정값을 약 74%의 정확도로
예측할 수 있었다. 또한, 상관계수와 변수중요도 모두에서 색온도 설정값과 상관성이 가장 높은 것으로 나타난 변수인 시각만을 사용한 모델도 약 68%의
정확도로 조명 사용자의 선호 색온도 설정값을 예측할 수 있었다.
기존 연구에서는 사무공간에서 사용자의 선호 조명 밝기를 약 86%의 정확도로 예측하는 랜덤 포레스트 모델을 제안했다[15]. 제안하는 방법과 기존 연구 모두 랜덤 포레스트 기반의 다중분류모델을 구축했지만, 두 모델의 예측값과 입력변수가 다르기에 성능에 차이가 나타난 것으로
보인다. 예측값의 경우, 본 논문에서는 주거공간을 대상으로 총 4가지의 사용자 선호 색온도를 예측하는 모델을, 기존 연구에서는 사무공간을 대상으로
총 3가지의 사용자 선호 밝기를 예측하는 모델을 구축했다. 조명의 밝기와 색온도는 모두 시각적 인식과 기분에 영향을 미칠 수 있지만, 종류와 공간에
따라서 사용자에게 미치는 영향과 조건에 차이가 있을 수 있다[13]. 또한, 다중분류모델의 경우 일반적으로 예측값의 범주 수가 증가할수록 성능은 낮아지기에, 제안하는 모델의 범주 수가 더 많은 것도 두 모델의 성능
차이에 영향을 미친 것으로 보인다[36]. 입력변수의 경우, 기존 연구에서는 시각이나 요일 외에도 측정 장비나 관측을 통해 수집할 수 있는 실내 조도, 자연광 조도, 휘도, DGI, 기상조건,
그림자 위치, 조명 위치, 세부 조명 위치, 안경 착용 여부, 작업 특성에 대한 정보를 수집한 후, 이를 입력변수로 사용하는 모델을 구축했다. 하지만,
랜덤 포레스트 모델 구축 시 관련성이 낮은 변수를 입력변수로 사용할 경우 모델의 성능이 낮아지거나 과적합(over fitting) 문제가 발생할 수
있다[26]. 때문에, 본 논문에서는 네트워크를 통해 수집할 수 있는 시간 및 기상 관련 정보들을 수집한 후, Phik 상관계수와 랜덤 포레스트의 변수중요도를
활용해 모델 구축을 위한 최적의 입력변수를 시각 및 온도로 선정하여 랜덤 포레스트 모델을 구축했다. 이러한 예측값과 입력변수의 차이로 두 모델의 성능에
차이가 발생한 것으로 보인다. 기존 연구에서는 측정 장비나 관측을 통해 수집 가능한 12가지 변수를 활용해 총 3단계의 선호 조명 밝기를 약 86%의
정확도로 예측할 수 있었다. 하지만, 본 연구에서는 네트워크만 연결되어 있다면 수집할 수 있는 2가지 변수만을 활용하여 총 4단계의 선호 색온도를
약 74%의 정확도로 예측할 수 있었다.
본 연구에서는 조명 사용자의 사용환경 데이터와 랜덤 포레스트를 활용한 선호 색온도 설정값 예측 방법에 대한 가능성 여부는 확인했다. 제안하는 방법은
센서 등의 추가적인 장치 없이 네트워크만 연결되어 있다면 수집할 수 있는 데이터인 시각, 기온 등을 사용해 사용자 개인의 조명 선호도를 만족하는 지능형
조명 제어 방법으로 활용될 수 있다. 하지만, 랜덤 포레스트 이외에 SVM, ANN 등의 모델을 사용하거나, 추가적인 센서를 활용할 경우 더 좋은
성능의 선호 색온도 설정값 예측 모델이 구축될 수 있다. 또한, 본 논문에서의 실험 조건과는 다르게 실제 주거공간에서는 복수의 사용자가 존재하는 등의
문제가 발생할 수 있다. 영상 기반의 사용자 식별 기술을 활용해 사용자별로 최적의 예측 모델을 각각 구축하고 운영할 경우, 복수의 사용자를 대상으로도
적용 가능한 최적의 조명 제어 조건 예측 모델로 활용될 수 있다[16]. 사용자별로 선호 색온도 예측 모델을 구축하고 운영하는 방법 등 제안하는 모델을 실제 주거공간에 적용하기 위한 추가적인 연구도 필요할 것으로 보인다.