강동구
(Donggu Kang)
1iD
김지연
(Jiyeon Kim)
2iD
정종진
(Jongjin Jung)
†iD
-
(NAONWORKS Co., Ltd., Korea)
-
(College of Humanities and Arts, Daejin University, Korea)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Deep Learning, Scene Graph, Ontology, Protege, Story Video Content
1. 서 론
최근 넷플릭스, 왓챠, 쿠팡 플레이와 같은 OTT(Over-The-Top) 서비스 이용자가 폭발적으로 증가함에 따라 스토리가 있는 영상과 관련 콘텐츠를
지능적으로 분석하며 통합관리할 자동화 시스템과 인프라가 요구되고 있다. 또한 OTT 서비스 외에도 유튜브나 IPTV, VOD 등에서도 스토리가 있는
영상 및 관련 콘텐츠가 나날이 방대하게 생산되고 있다. 이렇게 매시간 생산된 콘텐츠 중에서 사용자가 찾고자 하는 콘텐츠를 검색하거나 사용자의 질의에
응답하기 위해서는 지능적인 분석을 사전에 수행하여야 한다. 스토리가 있는 영상 콘텐츠를 분석하기 위해서는 기본적으로 기계가 스토리가 있는 영상 및
관련 콘텐츠에 포함된 객체 간의 관계를 자동으로 파악할 수 있어야 하며, 분석된 정보를 데이터베이스화할 수 있어야 한다. 그러나 스토리가 있는 영상
및 관련 콘텐츠를 기계가 이해하거나 분석하는 연구는 여전히 부족한 실정이다.
스토리가 있는 영상 및 관련 콘텐츠가 아니더라도 관련 정보를 효과적으로 관리하기 위하여 온톨로지(ontology)로 구축하는 연구가 오래전부터 활발히
진행되어 왔다. 이미지나 영상 콘텐츠에서 온톨로지를 구축하는 기존의 방법은 대체로 이미지 처리기법을 활용한 반자동 기법들이 주류를 이루었으나 이미지
처리기법의 기술적 한계로 인해 사람의 개입이 필요하고 정확도가 다소 떨어지는 등의 특징이 있다. 해당 방법들은 크게 시맨틱 웹 기술을 활용한 수동
방식의 구축 방법(2)과 이미지 처리 기술을 활용한 반자동 방식의 구축 방법(3,7)으로 구분할 수 있다. 최근에는 딥러닝 기술이 발달함에 따라 딥러닝 기술을 활용한 자동 구축 방법(1,15)도 시도되는 추세이다. 이때 기계가 스토리가 있는 영상 및 관련 콘텐츠를 분석해서 자동으로 온톨로지를 구축하기 위해서는 다중 딥러닝 모델들을 동시에
실행해야 한다. 이처럼 멀티 모달 환경과 같이 서로 다른 유형의 데이터가 복잡하게 융합되어 있는 도메인에 딥러닝 모델을 적용하기 위해서는 다중 딥러닝
모델의 실행환경이 구축되어야 한다. 그러나 아직도 다중 딥러닝 모델의 병렬처리 실행을 위한 가상환경 제어구조에 관한 연구가 활발하게 이루어지고 있지
않다.
본 연구에서는 스토리 영상 콘텐츠의 자동 분석 및 저장을 목적으로 장면 그래프 생성 모델 기반의 자동 온톨로지 생성 프레임워크를 제안한다. 제안 프레임워크에서는
영상의 특정 장면(Frame) 내에 있는 객체 간의 추상적인 관계를 자동 분석하여 예측하고 온톨로지로 저장한다. 이는 기계가 스토리 영상을 자동 이해하기
위한 기초 단계 작업으로서, 장면에 대한 심도 있고 정확한 분석을 진행하고자 크게 중요 영역 캡션 생성 모델, 객체 관계 생성 모델, 캐릭터 식별
모델로 구성된다. 그러나 단일 학습 모델을 사용하는 기존 연구와는 달리 다중 학습 모델을 사용하는 경우, 각 모델이 요구하는 실행 환경의 차이로 인해
정상적인 실행이 어렵거나 잘못된 결과가 출력되는 문제가 있다. 이러한 문제는 현재 많은 연구자들이 부딪히는 문제 중 하나로, 본 연구에서는 해당 문제를
해결하기 위해 메타 제어기 개념을 도입한다. 제안된 메타 제어기는 위의 세가지 딥러닝 모델들이 요구하는 실행환경을 각각의 가상환경으로 별도 구성하여
병렬적으로 실행하도록 제어한다. 또한 각 모델들의 실행 결과를 매핑하여 최종적으로 온톨로지 형태로 저장된 데이터들을 통합 관리한다. 이러한 방식을
통해 갈수록 복잡해지는 복합문제들을 딥러닝을 이용해 처리하기 위해 요구되고 있는 다중 모델들을 동시에 제어할 수 있도록 한다.
2. 본 론
2.1 관련 연구
1) 비주얼 게놈(Visual Genome)
이미지 캡셔닝을 위한 기존의 데이터 세트들은 전체 이미지에 대한 캡션(Caption)을 제공하거나 이미지 내 영역(Region)에 대한 레이블(Label)은
제공하지만 완전한 문장 형태의 캡션은 제공하지 않는다(12). 비주얼 게놈(10)의 영역 캡션(Region Caption) 데이터 세트는 MS-COCO(6)와 YFCC100M(12) 데이터 세트에서 이미지를 수집하였다. 또한 크라우드 소싱(Crowd Sourcing) 플랫폼인 Amazon Mechanical Turk를 통해 분산
인력이 이미지에 영역 경계박스(Bounding Box) 생성 작업을 진행하고 해당 영역에 대한 묘사를 자연어 형태의 캡션으로 작성하는 방식으로 구축하였다.
비주얼 게놈의 영역 캡션 데이터 세트는 현재 108,077개의 이미지, 약 5,400,000개의 영역 캡션, 약 1,700,000개의 시각적 QA,
약 3,800,000개의 객체 인스턴스, 약 2,300,000개의 객체 관계 등을 포함한다.
2) DenseCap
이미지에 대한 묘사를 자연어 형태로 생성하는 과제는 크게 두 가지 방향으로 연구되었다. 첫 번째로 이미지의 중요한 여러 영역을 효율적으로 식별하고
레이블을 생성하는 객체 검출(Object Detection) 방법이 있다. 두 번째로 레이블의 복잡도를 확대하여 전체 이미지에 대한 묘사를 단어 시퀀스(Sequence
of Words) 형태로 생성하는 이미지 캡셔닝이 있다. 두 연구는 레이블의 밀도(Density)와 복잡도(Complexity)를 두 축으로 서로
독립적으로 진행하었다. DenseCap(9)은 이러한 객체 검출과 이미지 캡셔닝 모델을 하나의 공동 프레임워크로 통합하는 모델이다. DenseCap은 비주얼 게놈을 학습시킨 사전학습 모델(Pre-trained
Model) 형태로서 제공되는데 밀도 캡셔닝(Dense Captioning)을 위한 Fully Convolutional Localization Network(FCLN)를
제안하였다. DenseCap은CNN과 RNN으로 구성된다는 점에서 기존 이미지 캡셔닝의 인코더-디코더(Encoder-Decoder) 방식을 따른다.
그러나 지역화 계층(Localization Layer)을 추가하여 영역 수준의 학습과 예측을 가능하게 한다. DenseCap 구조에서 CNN은 VGG-16을
사용하고, RNN 언어 모델Language Model)로는 LSTM(Long Short Term Memory)을 사용한다. 본 연구에서는 DensCap을
적용하여 영상에서의 영역 캡션을 생성하고, 영역에서의 중요한 객체들을 추출한다.
3) 핵심영역 캡션 검출 기법(Key Region Caption Detection Algorithm)
위에서 언급했듯이 DenseCap을 통해 생성된 영역 캡션들은 단순히 이 모델이 인식한 인식 정확도에 따라 정렬되게 되는데 이렇게 생성된 결과만으로는
스토리가 있는 영상 및 관련 콘텐츠를 제대로 분석했다고 보기 어렵다. 그러므로 영상 콘텐츠 내에 속한 객체를 중심으로 중요한 특징 정보를 고려하여
중요도 점수를 다시 부여할 필요가 있다. 본 연구에서는 선행연구(4)에서 진행한 핵심 영역 캡션 검출 알고리즘을 이용한다. 해당 알고리즘은 영역 박스 신뢰도 점수, 영역 면적, 영역과 장면 중심 간 거리, 객체 종류를
고려하여 우선순위를 계산한다. 영역 박스의 신뢰도 점수(Confidence Score)는 영역 박스 안에 객체가 존재할 확률이 높을수록, 영역 박스와
정답 박스(Ground Truth Box)가 일치할수록 큰 값을 갖는 영역 박스에 대한 신뢰도 지표이다. 따라서, 영역 박스의 신뢰도 점수가 높을수록
영역 박스가 객체를 정확하게 포함하고 있을 확률이 높으므로 영역 박스의 신뢰도 점수가 클수록 중요한 영역이라고 가정한다. 또한 영역의 면적이 클수록
영역이 나타내는 객체가 장면에서 중요한 객체일 가능성이 크다고 가정한다. 일반적으로 영화와 같은 콘텐츠에서는 장면의 중요한 객체를 강조하기 위해 클로즈업
등의 촬영 기법으로 전체 장면에서 차지는 면적을 크게 하기 때문이다. 또한, 장면의 중요한 객체일수록 카메라의 중앙에 위치하도록 촬영하는 경우가 일반적이므로
객체가 장면의 중심과 가까울수록 중요한 객체일 가능성이 크다고 가정한다. 객체는 인물과 사물, 배경으로 구분되며, 인물의 경우 해당 인물의 비중에
따라 주연, 조연, 엑스트라로 구분할 수 있다. 따라서 객체의 종류에 따라 중요도가 모두 다르다고 가정하고, 객체 종류에 따른 중요도로 사용한다.
최종적으로 우선순위 계산을 위해 앞에서 계산한 네 가지 항목에 대해 표준화 스케일링(Standard Scaling)을 적용하여 표준 정규 분포로 변환하고
스케일링을 거쳐서 우선순위를 부여한다. 세부적인 방법은 (4)에 설명되어 있다.
4) 객체관계 생성 딥러닝 모델 - SGG
스토리가 있는 영상 및 관련 콘텐츠를 이해하기 위해서는 영상 내에 포함된 객체 간의 관계를 정확히 인식하는 것이 객체들의 종류와 중요도를 파악하는
것만큼 중요하다. 영상 내에 포함된 객체 간의 관계를 추출하는 대표적인 연구가 (5)와 (8)이다. 본 논문에서는 스토리가 있는 영상 및 관련 콘텐츠를 프레임 단위로 한 장씩 분리하여 장면 그래프 생성 모델인 SGG (Scene Graph
Generation)(5) 모델에 입력한다. 모델은 이미지 내에 노출된 객체와 객체 간에 관계를 생성하여 출력한다. 전체적인 SGG의 구조 및 실행절차는 그림 1과 같다. SGG는 입력 이미지에 대해 객체들을 검출하고 추론 과정을 거쳐 장면 그래프를 통해 객체 간의 관계를 예측하는 작업을 수행한다. SSG
모델은 Mask R-CNN을 사용하여 이미지 내의 사람을 포함한 여러 객체를 검출하고 완전 그래프(Complete Graph) 형태로 구성한다. 그리고
노드와 에지에 특징값을 전파하는 메시지 전달(Message Passing)을 수행하고 각 노드와 에지 클래스로 나뉘어 분류 레이어(Classification
Layer)를 통과하면 장면 그래프가 생성된다.
그림. 1. SGG 구조
Fig. 1. Architecture of SGG
2.2 제안 프레임워크 실행 구조
본 연구에서 제안하는 프레임워크는 기계가 스토리 영상 콘텐츠를 이해하기 위해 필요한 소프트웨어적 인프라 프레임워크를 구축하는 것이다. 특히 영상 콘텐츠의
내용물을 추출하고 이들 간의 관계를 데이터베이스화하기 위해 온톨로지를 자동 구축하는 메커니즘에 초점을 맞추고 있다. 제안 프레임워크는 그림 2와 같이 사용자 인터페이스, 게이트웨이, 메타 제어기, 통합 저장소, 온톨로지 자동 구축 및 질의처리기 그리고 다중 딥러닝 모델들로 구성된다.
그림. 2. 제안된 자동 온톨로지 구축 프레임워크
Fig. 2. Proposed ontology construction framework
그림 2에서 중요영역 캡션 생성 모델(Key Region Captioning Model)은 입력된 스토리 영상 콘텐츠에서 객체에 대한 속성 정보를 인식하며
우선순위와 중요도를 계산한다. 또한 객체 관계 생성 모델(Objects Relationship Creation Model)은 객체 간에 관계를 인식하고
장면 그래프를 생성하며, 캐릭터 식별 모델(Character Identification Model)은 영상 내 등장인물의 얼굴을 추출하여 얼굴 군집을
생성하고 캐릭터를 인식한다. 이들이 동시에 학습 및 추론을 수행하여야 하므로 메타 제어기(Meta Controller)는 각 모델이 요구하는 실행
환경에 맞게 가상환경을 제어하고 한정된 시스템 자원을 할당하고 관리하며 입출력되는 데이터를 검사한다. 필요에 따라 파라미터를 전달하기도 하고 각 모델이
생성한 데이터들을 하나로 매핑하는 역할도 수행한다. 결과적으로 다중 모델과 메타 제어기를 통해 생성된 온톨로지는 통합 저장소(Integrated Repository)에
생성되어 저장되며 게이트웨이(Gateway)를 통한 질의처리기(Query Processor)를 통해 사용자와 상호작용을 수행한다. 단일 모델을 사용하는
환경에서는 게이트웨이가 (1)과 같이 사용자 인터페이스를 통해 스토리 영상 콘텐츠를 입력받고 각 모델로 전달하며, 필요에 따라 처리된 결과를 사용자
질의에 알맞게 시각화하여 (6)처럼 사용자 인터페이스로 출력하는 것이 일반적이다. 하지만 단일 모델 환경과 달리 다중 모델 환경에서는 각 모델이 요구하는
실행 환경의 차이로 인해 정상적인 실행이 어렵거나 잘못된 결과가 출력되는 문제점이 있다. 이에 본 연구에서는 메타 제어기 개념을 도입함으로써 다중
모델 환경에서 발생할 수 있는 이상의 문제들을 사전에 회피하고, 독립된 각 모델들이 요구하는 가상환경을 제공한다.
2.3 객체 관계 생성 모델
영상을 이해하기 위해서는 영상 내에 포함된 객체 간의 관계를 정확히 인식하는 것이 중요하다. 본 절에서는 장면 그래프 생성 모델인 SGG 모델을 이용하여
입력 이미지에 대한 객체를 검출하고 추론 과정을 거쳐 장면 그래프를 통해 객체 간의 관계를 예측하는 작업을 수행한다. 하지만 이 모델에서는 A 객체,
B 객체, 두 객체 간의 관계 정보만을 출력한다는 특징이 있다.
그림. 3. 객체 관계 생성 구조
Fig. 3. Objects relationship generation mechanism
그림 3은 제안한 그림 2의 프레임워크에서 온톨로지를 자동 생성하기 위해 적용하는 세 모델 중 SGG를 기반으로 한 객체관계 생성 모델(Objects Relationship
Creation Model)과 캐릭터 식별 모델(Character Identification Model) 간의 병렬적 실행 및 데이터 매핑 프로세스를
중심으로 한 온톨로지 생성 프로세스를 보여주고 있다. 객체관계 생성 모델을 통해 장면에서 등장하는 객체들을 식별하고, 이들 간의 관계를 그래프 형태로
생성한다. 이 중에서 사람 객체들에 대해서는 캐릭터 식별 모델을 통해 캐릭터 정보로 매핑된다. 객체관계 생성 모델에 대한 세부 수행구조는 2.1절의
4)에 기술되어 있다. 이렇게 생성된 정보는 그림의 오른쪽 파트에 해당하는 온톨로지를 생성하기 위한 프로세스로 전달된다.
2.4 중요 영역 캡션 생성 모델
스토리가 있는 영상 콘텐츠를 제대로 분석하기 위해서는 영역 박스의 신뢰도 점수, 영역 면적, 영역과 장면 중심 간 거리, 객체 종류 등을 모두 고려하여
중요도 점수를 부여할 필요가 있다. 이렇게 중요 영역의 캡션을 검출하기 위해 객체 검출과 이미지 캡셔닝 모델이 하나의 공동 프레임워크로 통합된 DenseCap
모델(9)을 사용한다. DenseCap은 2.3절의 객체관계 생성 결과와는 달리 인식된 객체가 가진 속성 정보도 출력하기 때문에 영역 캡션 생성 모델과 객체관계
생성 모델의 결과에 우선순위 부여 알고리즘(4)을 적용하면 보다 양질의 결과를 얻을 수 있다.
2.5 캐릭터 식별 모델
캐릭터 식별과 구분은 스토리가 있는 영상 콘텐츠를 이해하는 데 필수적인데 반해 2.3절과 2.4절에서 출력되는 객체 종류 중 인물에 대한 정보는 ‘man’,
‘woman’ 과 같이 성별로만 인식된다. 이는 모델이 사용하는 데이터셋에서 콘텐츠에 등장하는 인물의 얼굴이 학습되어 있지 않기 때문이다. 따라서
본 연구에서는 정보의 불완전성 한계를 극복하기 위해 HoG 알고리즘(11)으로 영상 내 등장하는 인물들의 얼굴을 추출하며, DBSCAN(16)으로 추출된 얼굴에 대한 군집을 생성하고, EfficientNet(13) 모델로 콘텐츠 내에서 등장하는 인물을 캐릭터를 식별한다. 실행된 결과는 메타 제어기 내 데이터 매핑 처리기로 전달되며 기존에 다른 모델에서 인식한
인물의 성별과 좌표정보를 IoU(Intersaction over Union)로 계산하여 매핑한다. 상기 과정은 선행 연구(4)에서 자세히 설명되어 있다.
2.6 메타 제어를 통한 데이터 매핑
단일 딥러닝 모델을 사용하는 일반적인 환경에서는 그림 2의 (1)과 같이 사용자 인터페이스를 통해 입력받은 스토리 영상 콘텐츠를 각 모델로 전달하고, 처리된 결과를 시각화하여 (6)처럼 사용자 인터페이스로 출력하는
단순한 구조를 가진다. 하지만 다중 모델 환경에서는 단일 모델 환경과 달리 실행을 위해 요구되는 Python, CUDA, PyTorch 등의 의존성
패키지들이 각 모델이 따라 차이가 있기 마련이다. 이처럼 모델이 서로 사용하는 의존성 패키지와 버전들이 다름에도 불구하고 가상환경의 독립적인 분리
없이 다중 모델을 실행하는 경우에는 오류가 발생하거나 정상적인 실행이 불가능해 실행이 되더라도 잘못된 결과를 출력하게 되는 문제가 발생한다. 이런
문제의 대부분은 해당 모델이 요구하는 실행 환경이 알맞게 갖추어지지 않아 발생한 문제일 가능성이 다분하다. 요즘에는 프레임워크 내에서 다중 모델을
요구하는 경우가 늘어남에 따라 다중 모델을 사용하는 연구자들 사이에서는 이상의 문제들이 연구의 효율성을 저해하는 요소로 대두되고 있는 실정이다.
그림. 4. 메타 제어에 의한 온톨로지 데이터 생성
Fig. 4. Generation of ontology data by meta control
그림 4에서 보면, 제안된 프레임워크에서는 각기 다른 기능을 가진 세가지 딥러닝 모델이 요구하는 실행 환경이 각각 다르다. 앞서 언급한 문제들을 해결하기
위해 본 연구에서는 메타 제어기(Meta Controller) 개념을 도입하고 모델별 실행 환경을 관리함으로써 다중 모델 환경에서 발생할 수 있는
여러 충돌 문제를 사전에 회피하고, 각 모델이 요구하는 독립된 실행환경을 제공한다. 또한 각 모델을 순차 실행하지 않고 동시에 병렬로 실행함으로써
실제 총 소요된 시간을 대폭 감소시키고, 시스템 자원 활용도를 높일 것으로 기대한다. 따라서 시스템 자원 관리의 필요성도 존재하는데, 메타 제어기
내 자원 관리 스케줄러(Resuurce Managing Scheduler)가 각 모델의 생명주기를 관리하고 한정된 시스템 내의 자원을 효과적으로 스케줄링한다.
각 모델이 결과를 출력하면 가상환경 관리기(Virtual Environment Manager)를 지나 자원 관리 스케줄러를 통해 데이터 검사기(Data
Monitor)로 전달하고 통합 저장소(Integrated Repository)에 기록한다. 또한 각 모델의 실행 결과의 유효성을 검사하는 것도 메타
제어기의 기능이다.
2.7 통합 저장소와 데이터 매핑 처리기
스토리 영상 내 객체 인식의 특성상 실제로는 같은 객체, 영역, 관계임에도 불구하고 서로 다른 모델의 인식이 중첩되어 중복 데이터를 생산하다 보니
하나로 통합하여 관리할 필요성이 존재하기 마련이다. 따라서 생산된 중복 데이터를 2.3절과 2.4절 그리고 2.5절에서 인식된 중복 객체와 좌표정보에
기반하여 중복 데이터를 매핑한다. 이 과정을 처리하기 위해 기존 연구에 없던 데이터 매핑 처리기(Data Mapping Handler)와 통합 저장소
개념을 추가로 정의하고 통합 저장소는 생산된 데이터를 파일 등의 형태로 통합하여 관리할 수 있는 구조로 제안한다. 이는 온톨로지 자동 구축 등 통합
저장소에 액세스하여 질의를 처리하거나 다른 온톨로지 간에 참조 온톨로지를 구성하는 연산을 처리하기에 용이한 구조이다.
2.8 온톨로지 자동 구축 및 질의처리기
다중 딥러닝 모델에서 메타 제어기를 거쳐 온톨로지 자동 구축 및 질의처리기로 전달된 RDF(18) 데이터는 도메인 종속적 장면 그래프(Domain Specific Scene Graph) 결과를 통해 객체, 관계, 속성 등으로 구성되는 온톨로지로
치환된다. 이 과정은 Apache Jena(19) API를 통해 OWL 규격으로 Protege에 저장되는 프로세스이다. 이때 Protege(20)는 Java 기반의 온톨로지 에디터 및 지식 관리 시스템으로서 검색, 추적, 추론할 수 있는 다양한 인터페이스들을 제공한다. Protege로 구축된
온톨로지는 다른 애플리케이션에서도 데이터 변화를 관찰·분석하거나 추론하도록 지원할 수 있다. 이처럼 Protege에 저장되고 생성된 온톨로지는 통합
저장소에 의해 관리된다. 또한 사용자로부터 입력받은 질의는 추론 및 질의처리기를 통해 처리한다. 상기 과정은 선행 연구(1)에 설명되어 있다.
3. 실험 및 평가
3.1 실험 환경
본 연구는 Ubuntu 16.04.1, Intel Xeon Gold 5120 CPU, 178GB Memory, SSD 5TB, NVIDIA Tesla
V100-SXM2 32GB * 2 GPU 컴퓨팅 환경에서 구현 및 실험하였다. 실험 데이터는 ‘기생충’ 영화(1920x804 해상도의 2시간 12분
길이의 영상)를 대상으로 하였다. 영화 전체 프레임 189,908장은 전처리를 통해 7,922장의 이미지로 샘플링되었다. HoG 알고리즘에 의해 얼굴이
검출된 이미지는 2,299장이고 그중 1,281장의 이미지가 EfficientNet(22) 모델을 통해 학습되었다. 또한 캐릭터 식별 모듈에서 식별할 캐릭터는 영화의 메타 데이터를 활용하여 총 10명(주연 6명, 조연 4명)으로 특정하였다.
학습 모델별 요구되는 가상환경의 패키지 수는 아래 표 1과 같다.
표 1. 학습 모델별 가상환경 내 요구 패키지 수 (단위: 개)
Table 1. Required numbers of packages per each deep learning model in virtual environment
Deep Learning Model
|
conda
|
pip
|
합계
|
Key Region Captioning Model
|
309
|
240
|
549
|
Objects Relationship Creation Model
|
58
|
63
|
121
|
Character Identification Model
|
72
|
50
|
122
|
표기된 수치 중 conda 항목은 각 모델마다 구성된 아나콘다 가상환경에 설치된 패키지 수량을 export 명령어로 확인하였으며, pip 항목은 install
명령어로 설치된 패키지를 freeze 명령어로 출력한 설치된 패키지의 수량을 나타낸다.
3.2 실험 결과
3.1절의 실험 환경에서 실험을 진행한 결과, 장면 그래프 생성 모델(SGG)을 통해서 객체 및 관계가 총 1,024개 생성하였다. 그림 7의 객체관계 생성을 위해 그림 5에서 영역박스를 생성하였고, 그림 6은 영역박스 별 캡션을 생성한 후 그 중 70\% 이상의 정확도를 가진 객체관계에 대해 상위 20개를 뽑은 후 데이터 매핑 모듈을 통과시켜 캐릭터
정보가 자동 추가된 결과이다. 즉 데이터 매핑을 통한 도메인 종속적 객체 관계를 생성한 결과이다.
그림. 5. 중요 영역 캡션 생성 모델의 영역박스 생성 결과
Fig. 5. Result of region box generating
그림. 6. 영역박스 별 캡션 생성 및 보정 결과
Fig. 6. Generation and revision of caption for region box
그림 6에서 (a)는 영역박스별 캡션 생성 결과이고, (b)는 데이터 매핑 모듈을 통과한 후 보정된 캡션 생성 결과이다. 예를 들어, (a)에서 점선 박스로 표시된 ‘man’, ‘woman’이 (b)에서는 실선 박스로 표시된 ‘Ki Woo’, ‘Pizzeria boss’로 보정된 것을 확인할 수 있다. 또한 (a)의 ‘man’이 (b) ‘extra man’으로 보정된 것은 ‘man’이 주연 또는 조연에 해당하지 않는 인물이기 때문이다. 그림 6의 생성 결과를 바탕으로 그림 7은 객체관계를 생성한 후 시각화한 그림이다.
그림. 7. 데이터 매핑을 통한 도메인 종속적 객체관계 생성
Fig. 7. Generation of object relationship by data mapping
그림 7에서 SGG에 의해서 생성된 결과는 그림 6에서 생성된 문장 형태의 캡션에 포함된 객체들 간의 관계를 도식화해서 보여준 것을 알 수 있다. 즉, DensCap 모델은 영역별로 객체들에 대한
표현을 문장 형태의 캡션으로 생성하고, SGG는 주로 객체들 간의 위치관계를 중심으로 객체들에 대한 표현을 그래프 형태로 보여준다. 따라서 본 연구에서는
두 모델을 이용하여 온톨로지에 구성되는 객체들 및 객체들의 속성 정보, 객체들의 관계 정보를 추출할 수 있다.
그림. 8. Protege에서의 온톨로지 자동생성 결과
Fig. 8. Automatic generation of ontology by protege
그림 8은 온톨로지 자동구축 모듈을 통해 완성된 기생충 영화에서 특정 영상에 대한 도메인 온톨로지 생성 결과를 보여준다. 그림 8에서 객체는 사각형으로 표현되며 객체 관계는 점선으로 표현된다. 그리고 관계의 방향성은 점선의 화살표와 선으로 표현된다. 그림 6(b)에서의 3, 6번 캡션에서의 "Ki Woo(Choi Woosik)" 객체에 대한 관계가 그림 8의 적색 상자로 표시된 부분처럼 Protege에 저장되었음을 확인할 수 있다.
4. 결 론
본 연구에서는 기계가 스토리 영상 콘텐츠를 자동으로 분석하고 이해하기 위해 딥러닝 모델을 이용한 확장된 온톨로지 자동 구축 메커니즘을 제안하였다.
제안된 프레임워크는 핵심 모듈인 장면 그래프 생성 기법 외에 중요 영역 캡션 생성 모듈, 얼굴 인식 기법, 이미지 인식 기법, 온톨로지 구축 기법
등을 절차적으로 융합하여 스토리에 종속된 도메인 온톨로지를 자동으로 생성하도록 하였다. 구현된 프레임워크의 실험을 통해 스토리 영상에 대한 메타 데이터인
온톨로지를 장면 단위로 생성하는 것을 확인할 수 있었고 이는 기계가 영상을 이해하여 주석달기(Annotation), 영상요약(Abstraction),
감시(Surveillance)에 응용하는데 있어서 기반을 제공한는 점에서 의의가 있다. 또한 온톨로지 자동 구축을 위해 필요한 단일 딥러닝 학습 모델
환경보다는 다중 딥러닝 학습 모델 환경을 지원하기 위한 구조로 설계 및 구현하였다. 실험을 통해 다중 학습 모델을 실시간으로 처리해야 하는 환경 하에서
각 모델이 가상환경 충돌 없이 동시에 실행되는 것을 확인할 수 있었다. 이에 본 프레임워크가 기존의 온톨로지 개념에 확장된 심도 있는 영상분석과 추론을
가능케 할 것으로 기대한다. 따라서 향후에는 자동 구축된 온톨로지를 바탕으로 객체별 자동추적, 영상요약, 장면 및 상황 전환의 자동 구분 등과 같은
응용연구를 수행할 예정이다.
References
Donggu Kang, 2021, An extended ontology automatic construction mechanism using a Deep
learning model in Story video content, CICS'2021 Conference on Information and Control
Systems, pp. 442-443
Hyunjoo Kim, 2006, A Semantic Web-enabled Woo System for Ontology Construction and
Sharing, Journal of KIISE, Vol. 33, No. 8, pp. 703-705
In K. Lee, 2007, Ontology-based Image Understanding Systems, Journal of Fuzzy Logic
and Intelligent Systems, Vol. 17, No. 3, pp. 328-335
Hyesun Suh, 2022, A Core Region Captioning Framework for Automatic Video Understanding
in Story Video Contents, International Journal of Engineering Business Management,
Vol. 14, pp. 1-11
Boris Knyazev, 2020, Graph Density-Aware Losses for Novel Compositions in Scene Graph
Generation, arXiv, cs.CV, 2005.08230v2
X.l Chen, 2015, Microsoft coco captions: Data collection and evaluation server, arXiv
preprint arXiv:1504.00325
Daniele Porello, 2015, Integrating Ontologies and Computer Vision for Classification
of Objects in Images, Neural-Cognitive Integration, pp. 1-15
Dong-Jin Kim, 2019, Dense Relational Captioning: Triple-Stream Networks for Relationship-Based
Captioning, arXiv, cs.CV, 903.05942v4
Justin Johnson, 2015, DenseCap: Fully Convolutional Localization Networks for Dense
Captioning, arXiv, cs.CV, 1511.07571v1
R. Krishna, Y. Zhu, O. Groth, J. Johnson, K. Hata, J. Kravitz, M. S. Bernstein, 2017,
Visual genome: Connecting language and vision using crowdsourced dense image annotations,
International journal of computer vision, Vol. 123, No. 1, pp. 32-73
N. Dalal, B. Triggs, 2005, Histograms of oriented gradients for human detection.,
2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05),
Vol. 1, pp. 886-893
B. A. Plummer, 2015, Flickr30k entities: Collecting region-to-phrase correspondences
for richer image-to-sentence models, In Proceedings of the IEEE international conference
on computer vision, pp. 2641-2649
M. Tan, Q. V. Le, 2019, Efficientnet: Rethinking model scaling for convolutional neural
networks, arXiv preprint arXiv:1905.11946
Huang Yanping, 2019, GPipe: Efficient Training of Giant Neural Networks using Pipeline
Parallelism, arXiv, cs.CV, 1811.06965v5
P. Young, 2014, From image descriptions to visual denotations: New similarity metrics
for semantic inference over event descriptions, Transactions of the Association for
Computational Linguistics, Vol. 2, pp. 67-78
https://en.wikipedia.org/wiki/DBSCAN,
https://en.wikipedia.org/wiki/Web_Ontology_Language,
https://en.wikipedia.org/wiki/Resource_Description_Framework,
https://en.wikipedia.org/wiki/Apache_Jena,
https://https://protege.stanford.edu/,
저자소개
He received B.S degree(2020) and M.S degree (2022), Currently, he works at NAONWORKS
Co.,, Korea.
His research interests include machine learning, deep learning, cloud computing.
She received B.S degree(1992), M.S degree (1997) and Ph.D degree(2008) from Inha university,
Korea.
Currently, she is the professor in college of humanities and arts, Daejin university,
Korea.
His research interests include database, big data analysis and recommendation.
He received B.S degree(1992), M.S degree(1995) and Ph.D degree(2000) from Inha university,
Korea.
Currently, he is the professor in division of AI convergence, Daejin university, Korea.
His research interests include knowledge engineering, machine learning, deep learning,
big data analysis and recommendation.