Title |
SMART-ID: Semantic Matching based on Applying BERT for R&D Institution Identification |
Authors |
장광선(Gwangseon Jang) ; 김윤정(Yunjeong Kim) ; 황명하(Myeong-Ha Hwang) |
DOI |
https://doi.org/10.5370/KIEE.2023.72.9.1097 |
Keywords |
BERT; R&D data; Text similarity; Semantic similarity; Data verification |
Abstract |
국가R&D(Research & Development) 과제를 수행하는 기관이 증가함에 따라 과제 수행기관별로 R&D정보를 제공하는 분석 서비스에 대한 수요가 증가하고 있다. R&D과제 중심으로 구축된 데이터를 수행기관 중심으로 변경하여 정보를 제공하기 위해서는 수행기관의 식별작업이 필수적이다. 기존에는 사업자등록번호, 법인번호, 시스템별 관리용 기업 코드와 같은 식별 코드를 활용하거나 사용자가 입력한 기관명의 문자열 매칭을 기반으로 식별작업을 수행하였다. 그러나 기존 방법은 사용자의 오기 및 이형명을 고려하지 못하는 문제점으로 인하여 오식별 하는 문제가 발생하였다. 본 연구는 BERT를 활용한 의미론적 유사도와 최장 공통 부분 문자열(Longest Common Substring, LCS) 알고리즘 기반의 문자열 유사도를 적용한 하이브리드 시스템인 SMART-ID를 구축하여 문제점을 개선하고자 한다. SMART-ID는 R&D 수행기관 식별정보 갱신 자동화 및 R&D 연구과제데이터의 기관명 검증, R&D 연구과제 데이터의 수행기관 식별 코드 자동할당, 텍스트 기반 수행기관 검색 작업을 수행할 수있다. 국가과학기술지식정보서비스(NTIS)의 실제 데이터를 기반으로 위 3가지의 작업에서 SMART-ID의 우수한 성능을 입증하였다. SMART-ID은 향후 국가과학기술지식정보서비스의 챗봇 내 기관명 인식 모듈로 활용하여 더욱 정확한 기관별 통계및 검색 정보를 제공하는데 활용될 것이다. |