• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Division of AI Computer Science and Engineering, Kyonggi University, Republic of Korea.)



Fine-tuning, Prompt-tuning, Retrieval-Augmented Generation, Chatbot, OTC Drugs Information Provision Chatbot

1. 서 론

최근 개인 건강에 관한 관심이 증가하는 가운데, 일반의약품을 구매하기 전과 구매 후 올바른 복용 방법을 제공받을 수 있는 것은 중요한 요인이다. 내국인은 이러한 정보 습득이 여러 경로로 잘 이루어지고 있지만, 외국인은 쉽지 않은 것이 현실이다. 이처럼 국내 체류 외국인의 증가와 함께 외국인의 국내 의료 및 의약품 정보에 대한 접근성이 중요한 과제로 떠오르고 있다. 특히, 약국에서 일반의약품을 구매하거나 복용 전후에 올바른 정보를 습득하는 과정에서 언어적 장벽으로 인해 정보를 이해하는 데에 어려움이 있어, 복약 지침을 따르지 못하는 문제가 발생할 수 있다. 따라서 이러한 한계점을 극복하기 위해 인공지능(AI)과 자연어 처리(NLP) 기술을 활용한 자동화된 의약품 정보 제공 방법의 필요성이 대두되고 있다. 또한 국내의 기존 일반의약품 정보 제공 서비스들은 한글 중심의 데이터를 기반으로 하여 외국어 대응에 한계가 있기에 별도로 번역 앱을 사용하거나 브라우저 내의 번역 기능을 사용해야 하는 번거로움이 있다. 이러한 한계를 극복하고자 본 연구는 국내 체류 중인 외국인을 대상으로 의약품에 대한 정보를 영어, 일본어, 중국어로 제공하는 검색증강 생성 기반 다국어 일반의약품 챗봇 시스템을 제안한다. 선행연구에서 챗봇을 통해 감정 스트레스의 인지, 해결을 위한 방안을 제시할 수 있는 가능성을 확인하였으나, 사용자의 다양한 질문에 대응할 수 없다는 한계가 있다[1]. 따라서 본 연구에서는 식품의약품안전처에서 제공하는 공공데이터 API에서 확보한 약품명, 복용법, 효능, 주의 사항 등 다양한 데이터를 바탕으로 LLM을 활용한 챗봇 시스템을 구축하고, 언어별로 자연스러운 응답 제시를 위한 파인튜닝을 진행한다. 그러나 일반 LLM 서비스를 활용한 챗봇 시스템의 경우 LLM의 할루시네이션(Hallucination) 현상이 발생할 수 있다. 따라서, 본 연구에서는 대용량 문서 집합인 코퍼스를 생성하고 이에 기반 한 검색증강 생성(Retrieval-Augmented Generation) 활용 시스템을 구현한다. 또한 연구에서 제안하는 챗봇 시스템과 GPT 기반 챗봇 시스템의 답변 비교 실험을 설계 및 구현하고 이를 통해 답변 성능 비교 결과를 제시한다. 본 연구를 통해 국내에 있는 외국인이 국내 의약품 정보에 대한 신뢰도와 접근성을 높일 수 있을 것으로 기대한다.

2. 관련 연구

2.1 의약품 정보 제공 방법에 대한 선행연구

선행연구에서는 약국 분야의 챗봇 도입에 대해 잠재적인 부작용 및 올바른 사용법에 대한 정보 제공 등의 장점을 제시하였다. 그러나 챗봇의 과제로 제한된 문맥 이해, 데이터 품질 의존성 등을 제시하며, 언어 기능 확장 등의 미래 방향을 제시하였다[2]. 본 연구에서는 파인튜닝과 프롬프트 튜닝을 활용한 LLM 기반 일반의약품 챗봇 시스템을 구축하여 제한된 문맥 이해에 대한 문제를 해결하고자 한다. 또한, 검색증강 생성(Retrieval-Augmented Generation) 기술을 적용하여 향상된 데이터 품질 기반 답변을 생성하고 다국어 지원을 통한 선행연구에서 제시된 미래 방향을 구체화하고자 한다.

2.2 대규모 언어 모델의 기술 트렌드

GPT(Generative Pre-trained Transformer)는 OpeanAI에서 개발한 대규모 언어 모델(LLM)이다. 대규모 언어 모델은 방대한 크기의 텍스트로 이루어진 데이터셋을 기반으로 학습한 딥러닝 모델로, 인간의 언어 패턴을 학습하는 데에 목적을 둔다. 주로 Transformer 구조를 기반으로 하며 매개변수(Parameter)의 수가 수억~수천억 개 이상이다. Transformer 구조는 대부분의 순차 변환 모델과 달리 순환(Recurrent) 구조나 합성곱 신경망(CNN) 없이 문장 내 단어 간의 관계가 파악 가능한 Attention 메커니즘을 기반으로 한 모델이다. Attention 메커니즘은 기존의 seq2seq 모델과 달리 고정된 길이의 벡터를 입력받고 고정된 길이의 벡터를 출력하는 구조의 한계점인 정보의 손실을 보완하기 위해 도입되었다. 입력 문장의 모든 단어를 동일한 가중치로 취급하지 않고. 출력 문장에서 특정 위치에 대응되는 입력 단어에 더 많은 가중치를 준다. 이를 통해 입출력의 길이가 다른 경우에도 더욱 정확하고 유연한 작동이 가능하다[3]. 이런 Transformer 기반 대규모 언어 모델인 GPT는 초기 모델인 GPT 3과 이후에 나온 GPT-3.5, GPT-4가 있다.

GPT 계열 모델은 기존 모델과 달리 작업별로 파인튜닝이 필요하지 않고, 사전 학습(Pre-training)된 방대한 데이터로 별도의 추가 학습 없이, 사전에 학습한 데이터를 바탕으로 바로 새로운 작업(Task)을 수행하는 능력인 Zero-shot Learning[4], 새로운 작업에 대해 1개의 예시를 통해서 학습 방향을 파악하고 작업을 수행하는 One-shot-Leaning[5] 과 새로운 작업에 대해 다수의 예시를 통해서 예시의 패턴을 파악하여 처리하는 Few-shot-Learning[6] 이 가능하다. 따라서 새로운 문제에 신속한 대응이 가능하다. GPT 3.5 모델은 현재 ChatGPT의 기반이 된 모델이다. 파라미터 수가 늘어났으며 응답 일관성, 대화의 흐름 유지, 프롬프트 처리 개선으로 대화형 AI에 최적이다. 계산, 논리 전개, 요약 능력 개선 등 추론 및 계산 능력이 강화되었고 처리 가능한 문맥 길이가 개선되었다. 하지만 여전히 특정 도메인 특화 성능이 제한적이다. 따라서 의료, 법률 분야와 같이 전문성이 짙은 영역은 기존 사전 학습되어있는 데이터 기반 학습으로는 한계가 있으며, 이를 보완하기 위해 파인튜닝 및 RAG 기술의 필요성이 강조된다.

2.3 언어모델에서 파인튜닝 기법

파인튜닝(Fine-tuning)은 대규모 사전 학습 언어 모델을 기반으로, 의약품 데이터와 같은 특정 도메인에 맞게 추가 학습을 수행하여 성능을 최적화하는 기법이다. GPT와 같은 대규모 언어 모델은 대규모 범용 데이터셋을 학습하여 다양한 언어 패턴을 이해할 수 있다. 하지만. 금융, 법학 의료와 같은 특정 도메인에서는 그 도메인만의 전문용어, 규칙, 공식 등을 반영하는 데 한계가 있다. 파인튜닝을 이런 문제를 보완하기 위해 도메인 특화 데이터셋을 사용하여 모델을 추가로 학습시킨다. 파인튜닝의 경우 생물의학 논문, 컴퓨터 과학 논문, 뉴스, 리뷰와 같은 특정 도메인의 언어적 특성과 어휘를 잘 이해하도록 도울 수 있다[7]. 이를 통해 챗봇 모델은 해당 도메인의 전문성을 학습하고, 다국어 의약품 정보 제공과 같은 특정 작업에 필요한 정확성과 자연스러운 응답 생성을 가능하게 한다.

파인튜닝의 작동 원리는 다음과 같다. 먼저 GPT처럼 사전 학습된 모델에서 도메인 데이터셋을 준비하고 JSONL과 같은 모델 입력 형식으로 데이터셋을 변환하여 데이터셋을 구축한다. 이 과정을 거쳐 만들어진 데이터로 파인튜닝을 진행시킨다. 특정 학습률, 최적화 알고리즘을 사용하여 모델 파라미터를 업데이트한다. 여기서 최적화 알고리즘은 Adam(Adaptive Moment Estimation)과 Cross-Entropy Loss 등이 있다. Adam은 모멤텀(Momentum)과 RMSprop(Root Mean Square propagation) 알고리즘을 섞은 최적화 알고리즘으로, 딥러닝에서 가장 흔히 사용된다. 파라미터마다 적응적으로 학습률을 조정하여 학습 속도, 안정성을 모두 향상한다. 특히 GPT 모델처럼 대규모 파라미터 공간을 가진 모델의 파인튜닝 과정에 효과적이다[8].

선행연구에서는 금융 분야에 적용되는 LLM 모델의 파인튜닝 사례를 연구하였다. 금융 분야에 특화된 데이터셋을 활용하여 전처리를 진행하고 Mistral 7B 모델을 바탕으로 파인튜닝을 진행한 모델이 정확한 답변을 제공하는 것을 확인하였다. 또한 이렇게 구현된 모델들을 활용한 다양한 적용 효과 및 적용 가능성을 실제 적용사례들을 바탕으로 제시하였다[9]. 본 연구에서는 이러한 선행 연구의 파인튜닝 성과를 바탕으로, 파인튜닝을 적용하여 다국어 환경에서 일반의약품에 특화된 정확한 정보를 제공하는 시스템을 제시한다.

3. 검색증강 생성 기반 다국어 일반의약품 챗봇 시스템

3.1 검색 증강 생성(Retrieval-Augmented Generation)

검색증강 생성은 인공지능 시스템이 외부 데이터베이스에서 정보를 검색하고, 이를 기반으로 더욱 정확하고 풍부한 텍스트를 생성하는 기술이다. 대규모 언어 모델(LLM)은 방대한 데이터셋을 토대로 사전 학습되어 다양한 텍스트 생성 작업에 장점을 보인다. 하지만, 단순한 생성 모델은 학습 데이터 이외의 최신 정보 또는 외부 정보를 반영하지 못하고, 사실성(Factuality)이 부족하거나 환각(Hallucination)을 생성하는 문제가 있다. 이에 대한 해결책으로 검색(Retrieval) 기반 지식확장을 도입한 기술이 등장했다. 대표적인 방법이 검색증강 생성 (Retrieval-Augmented Generation)이다. RAG는 검색 시스템(Retriever)과 생성 언어모델(Generator)을 결합한 아키텍처이다. Retriever가 질문과 관련된 문서를 코퍼스에서 검색하고 Generator가 검색된 문서를 포함해 답변을 생성한다. 이 과정에서 답변의 근거가 강화되고 최신성, 사실성이 향상된다[10].

RAG의 Retriever가 효과적이려면, 코퍼스를 잘 준비하고 정리하는 과정이 필수적이다. 먼저 문서 전처리 과정은 자연어 처리(NLP) 및 정보 검색(IR) 시스템에서 핵심적인 요소로, 데이터의 품질과 검색 효율을 높이기 위해 불필요한 요소를 제거하고 정제된 상태로 변환하는 과정이다. RAG에서 사용할 문서를 구축하기 위해 의미 없는 단어 또는 조사와 같은 불용어 제거, 특수문자, 숫자, 중복 공백, HTML 태그 등을 제거하는 패턴 기반 제거와 문단 병합의 과정을 수행한다. 다음으로 이렇게 정제된 문서를 키워드별로 요약한다. 이는 Retriever가 검색 시에 문서 내용에서 주요 주제를 빠르게 파악할 수 있도록 도움을 준다. 이후 이 요약 정보를 유사한 정보끼리 묶어 군집(Cluster)을 생성한다. 검색 시 일관성 있는 정보 제공과 검색 효율을 개선한다. 마지막으로, 군집화(Clustering)된 문서를 하나의 대용량 문서 집합인 코퍼스로 저장한다. RAG의 Retriever는 이와 같은 문서 처리 과정을 거쳐 검색 품질이 향상되며, 검색된 문서를 Generator의 입력으로 활용함으로써 답변의 최신성과 사실성을 강화하여 기존 모델이 가지고 있던 사실에 입각하지 않은 정보를 제시하거나 입력 값과 관련 없는 출력이 나오는 문제점을 해결할 수 있다.

본 연구에서는 GPT 3.5 모델을 기반으로 하는 일반의약품 정보 제공 챗봇을 구현하고 이를 기반으로 하는 웹서비스를 제안한다.

그림 1. 정보 제공 챗봇 서비스의 구성도

Fig. 1. Configuration diagram of the information chatbot service

../../Resources/kiee/KIEE.2025.74.11.1972/fig1.png

그림 1은 본 연구에서 제안하는 정보 제공 챗봇 서비스의 전체적인 구조도를 나타낸다.

다음은 챗봇의 시나리오 설계를 위하여 플로우차트를 구성하였다. 그림 2는 설계한 시나리오 플로우차트를 나타낸다. 플로우차트에서 볼 수 있는 것처럼, 먼저 챗봇은 사용자에게 질문 카테고리를 제시해준다. 사용자는 직접 질문을 할 수 있고,혹은 챗봇이 제시한 증상 관련 질문 혹은 약품 관련 질문을 선택할 수 있다. 약품 관련 질문을 선택한 경우 사용자로부터 약품의 이름을 입력받는다. 만약 약품이 존재하지 않으면 최대 3번의 재 질문을 시행한다. 이후 입력받은 이름의 검색후보 최대 5개를 사용자에게 제시한다. 사용자가 5가지의 약 중 한 개를 선택하면 약품효과에 대해 요약된 답변을 제시한다. 또한, 사용자가 원하는 경우 복용법 및 주의사항도 요약답변으로 제공해준다. 증상 관련 질문을 선택한 경우에도 마찬가지로 증상에 맞는 약품을 최대 5개 제시해주고, 사용자로부터 입력을 받아 요약모델을 활용하여 답변을 제공한다. 이때, 사용자의 입력 언어를 세션을 통해 관리하고, 생성된 국문 답변을 GPT 3.5 모델을 활용하여 해당 언어로 번역해서 제공한다.

그림 2. 챗봇 기반 요약답변모델의 시나리오 구성도

Fig. 2. Scenario Diagram of chatbot-based summary answer model

../../Resources/kiee/KIEE.2025.74.11.1972/fig2.png

3.2 RAG 기반 답변 모델 생성

설계한 모델은 증상 관련 의약품 정보 제공 및 의약품 개별에 대한 정보를 제공하기 위한 모델이다. 일반의약품에 대한 정확한 정보만을 제공하기 위하여, DB에 저장되어있는 데이터를 기반으로만 답변하도록 설계하였다. 그러나, 기타 질문(예시 : 특정 약품과 음식의 상호작용)들의 경우 해당 정보는 DB에 있지 않아 올바르지 않은 정보를 GPT 모델에서 자체 생성하여 제공하는 문제가 있다. 이처럼 GPT 모델이 근거 없는 답변을 제공하는 문제인 할루시네이션(Hallucination) 문제를 해결하고자 검색증강 생성 기술을 적용한 답변 생성 모델을 개발한다.

먼저, 컴퓨터가 데이터를 이해할 수 있도록 전처리를 진행한다[11]. 전처리 과정에서는 각 문서들에 대해, 불용문, 패턴 기반의 불필요한 내용을 제거하고, 질문에 대한 답변처럼 필요한 문단은 병합 및 분리를 통해 각 문서들에 대한 데이터를 적절하게 확보하도록 한다. 전처리 결과는 json 형태의 파일들로 저장된다. 다음으로, 전처리 결과물을 기반으로 각 문서별 키워드 요약을 진행한다. 키워드 요약은 문단에 대한 특정 키워드들을 기반으로 정보를 탐색할 때, 유용하게 활용할 수 있다. 키워드 요약은 distilbert-base-nli-mean-tokens 모델을 사용한다. 해당 모델은 distilbert 모델 중 하나로 distilbert 모델은 문장 수준 및 문서 수준의 문맥화를 가능하게 하며, 이를 통해 전통적인 방법으로는 포착하기 어려운 풍부한 의미론적 관계를 포착할 수 있다[12]. 요약이 완료되면 json 형태의 파일로 저장한다. 키워드 요약 결과물을 기반으로 군집화(clustering)를 진행한다. 군집화를 통해 비슷한 키워드를 가지는 문서들을 분류하는 효과를 얻을 수 있다. 군집화의 경우 paraphrase-MiniLM-L6-v2 모델과 KMeans 방법을 활용하여 수행한다. 그리고 최적의 성능을 제공하기 위하여 각 k별 silhouette 점수를 비교하고 높은 실루엣을 가지는 k값으로 군집화를 진행한다. 이후 군집화의 결과물을 코퍼스(corpus) 형태를 가지는 json 파일로 생성한다. 코퍼스 파일에서는 각 문단과 유사한 내용의 위치를 파악할 수 있는 임베딩 값들을 가지고 있다.

이렇게 분류된 데이터들을 바탕으로 챗봇 모델에서 활용하여 답변을 제공한다. 챗봇 서버에 사용자의 기타 질문이 입력되면, 챗봇에서는 질문과 유사한 내용을 가지는 코퍼스를 탐색한다. 이후 유사도 상위 3개의 데이터를 바탕으로 GPT 3.5 모델을 활용하여 답변을 생성하도록 한다. 유사도 탐색 모델은 multi-qa-mpnet-base-dot-v1을 사용하였으며, 유사도 계산을 위한 공식은 코사인 유사도 공식을 사용한다.

4. 결과 및 성능평가

4.1 다국어 일반의약품 챗봇 시스템 구현

3장에서 구현한 검색증강 생성 활용 다국어 챗봇 기반 일반의약품 정보 요약 시스템에 기반하여 정확한 답변을 다국어 챗봇 기반으로 제공하는 정보 요약 시스템을 구현했다. 이를 위해 공공데이터 포털에서 제공하는 식품의약품안전처_의약품개요정보(e약은요) API를 활용하여, 일반의약품 국문이름, 효과, 복용법, 주의사항에 대한 데이터를 활용하였다. 또한, 식품의약품안전처_의약품 제품 허가정보 API를 활용하여, 공식 일반의약품들의 영문이름 데이터를 습득하였다. 이를 기반으로 MongoDB에 표 1의 내용을 가진 테이블을 설계하였다.

표 1 MongoDB에 저장한 일반의약품 정보

Table 1 OTC Drug’s official information stored in MongoDB

Field

Data

itemName

약품의 국문명

engName

약품의 영문명

efcyQesitm

약품 효과

useMethodQesitm

약품 복용법

atpnQesitm

약품 주의사항

weight

1.0 (default)

다음은 GPT 3.5 모델을 기반으로 프롬프트 튜닝과 파인튜닝을 활용하여, 챗봇의 요약답변 생성 모델을 설계하였다. 요약답변 모델은 DB 상에 저장한 의약품의 정보를 바탕으로 각각 효과, 복용법, 주의사항을 요약해주는 모델 3가지로 구성하였다. 각 요약모델은 파인튜닝을 통하여 일정한 문맥표현을 학습하고 일관적인 문맥표현으로 답변을 제공할 수 있다. 학습에 필요한 데이터셋은 OpenAI Chat Completion Fine-tuning Format (JSONL) 포맷으로 제작하였다.

4.2 시스템 구현 결과

그림 3은 각각 GPT와 검색증강 생성 기술 기반 다국어 챗봇 시스템의 답변결과를 나타낸다. 좌측의 결과는 GPT 기반 다국어 챗봇 시스템의 답변으로, 정확한 정보에 기초하여 답변을 생성하지 못하는 모습을 보여준다. 반면에, 검색증강 생성 기술 기반 다국어 챗봇 시스템은 우측 결과처럼 정확한 정보에 기반 한 답변을 영어를 사용하여 정상적으로 제공해주는 것을 확인할 수 있다. 이처럼 검색증강 생성 기술을 활용하여 구현된 시스템은 정확한 정보를 기반으로 답변을 다국어로 제공할 수 있다.

그림 3. GPT 기반 다국어 챗봇(좌) 과 RAG 기반 다국어 챗봇(우) 결과

Fig. 3. GPT-based (left) and RAG-based multilingual chatbot (right)

../../Resources/kiee/KIEE.2025.74.11.1972/fig3.png

다음으로, 그림 4는 검색증강 생성 기술 적용 여부에 따른 답변의 차이를 나타낸다. 좌측의 결과는 검색증강 생성 기술을 적용하지 않은 다국어 챗봇 시스템으로, 의약품과 식품의 상호작용 관련 질문에 대해 답변을 잘 못하는 것을 볼 수 있다. 우측의 모습은 검색증강 생성 기술을 적용한 다국어 챗봇시스템의 모습으로, 상호작용 관련 질문에 대해 좀 더 구체적이고 정확한 답변을 제공해주는 모습을 볼 수 있다. 특히 샘플 문서에 있는 사용자와 가장 유사한 문단을 추출하고 이를 기반으로 정확한 답변을 생성한 것을 확인할 수 있다. 이를 통해 검색증강 생성 기술을 적용한 다국어 챗봇의 경우, 여러 공식 정보에 기반 하여 추가적인 질문에 대해 답변을 효과적으로 제공할 수 있다고 판단한다.

그림 4. 검색증강 생성 적용 여부에 따른 답변 비교

Fig. 4. Comparison of answers based on RAG is applied or not

../../Resources/kiee/KIEE.2025.74.11.1972/fig4.png

4.3 성능평가

본 연구에서는 검색증강 생성기술을 적용하고, 프롬프트 튜닝 및 파인튜닝 과정을 통해 개발한 챗봇 모델(증상에 적합한 의약품 정보 제공)과 기존 GPT 모델 기반 챗봇 간의 응답 품질을 비교 평가하고자 한다[13]. 또한, 공식 정보를 토대로 인터넷 글 형식의 샘플 문서 12개를 직접 제작하고, 이를 기반으로 한 RAG 도입 시스템과 기본 챗봇 시스템의 성능을 비교 검증하였다. 비교 대상은 동일한 질문에 대해 양 모델이 생성한 답변이며, 평가는 모범답안을 기준으로 각 모델에 대한 BLEU, ROUGE-1, ROUGE-2, ROUGE-L, BERTScore 지표를 산출하여 평가한다[14].

4.3.1 평가 설계

질문 구성은 실제 사용자가 활용할 만한 질문을 기반으로 하여 총 100개의 질문을 선별하였다. 성능평가의 질문 내용은 DB의 내용을 바탕으로, 증상별 의약품 목록, 의약품 효능, 복용방법, 주의 사항 등에 대한 질문과, 샘플 문서를 활용한 의약품의 관련 정보, 음식 등과의 상호작용 등에 대한 질문으로 구성하였다[15]. 모든 응답은 동일한 입력 조건 (프롬프트 및 시스템 설정) 하에서 생성되도록 통제되었다. GPT 모델 기반 챗봇과 검색증강 생성 기술 적용 챗봇 시스템의 답변 결과를 비교하였다. 모범답안을 기준으로 4.3에서 제시한 각 지표를 Python 라이브러리를 활용하여 계산하는 방식으로 진행하였다. 모범답안은 정답에 있어야할 의약품명, 의약품설명 등을 포함하도록 구현하였다.

4.3.2 성능평가 결과

표 2를 보면, 검색증강 생성 기술을 적용한 챗봇 시스템은 모든 평가지표에서 검색증강 생성 기술이 미 적용된 일반적인 GPT-3.5 기반 챗봇 시스템보다 높은 점수를 기록하였다. 또한 본 연구에서 제안하는 챗봇 시스템은 일관성 있게 답변을 제시하며, 최신 정보의 반영이 다소 부족하나 약에 대한 정보의 정확성은 공식 데이터를 저장한 DB에 기반 하여 매우 높다. 또한, 가독성이 뛰어나 내용 전달이 원활하며, 자연스러운 응답으로 인해 읽는 데 어려움이 없었다. 그러나 아쉬운 점은 증상에 대한 약 추천 시 증상이 아닌 키워드가 누락 되어 약을 추천한다는 것이다. 예를 들어, “아이가 열이 난다” 라는 경우, 아이에 대한 고려 없이 열이라는 증상만을 기준으로 약명을 추천하는 경향이 있었다. 반면, GPT-3.5 기반 챗봇 시스템은 답변을 적절한 형식으로 제공하긴 하나, 정보의 정확성이 낮고 한국어 표현에서 오류가 발생하는 경우가 종종 있었다.

표 2 각 시스템의 평가 항목별 점수

Table 2 Score by evaluation item for each system

category

GPT-based System

RAG-based System

BLEU

0.010076

0.021554

ROUGE-1

0.118298

0.186210

ROUGE-2

0.076465

0.109247

ROUGE-L

0.117298

0.185301

BERTScore

0.688218

0.711903

Average

0.202071

0.242843

최종 성능 비교 결과를 분석해 보면, 검색증강 생성 기반 챗봇 시스템은 기존의 GPT 기반 챗봇 시스템과 비교하여 모든 지표에서 앞섰다. 또한 도메인 특화 질문에 대해 높은 정확성과 적절성을 보이며, 신뢰할 수 있는 정보를 제공하는 것으로 나타났다. 이는 검색증강 생성을 통한 정보 탐색과 파인튜닝 과정에서 일반의약품에 특화된 데이터 세트를 사용하여 해당 분야의 전문 지식 및 용어 사용이 강화된 결과로 해석된다. 그러나 복합적인 사용자 맥락을 완벽하게 반영하지 못하는 한계가 발견되었으며, 추가 정보가 포함되지 않아 약 추천의 정밀도가 다소 저하되는 문제도 지적되었다. 이는 모델의 문맥 이해 능력 및 세부 조건 반영 능력의 개선이 필요함을 시사한다. 반면 GPT 기반 챗봇 시스템은 일반의약품의 세부 정보 정확성과 한국어 표현에서의 오류 문제로 인해 일반의약품 상담을 위한 도구로서의 한계를 드러냈다[16].

또한 검색증강 생성 기술을 효과적으로 활용한 결과로 의약품 답변 시 정확성이 향상된 것으로 보인다. 일반 GPT 기반 챗봇의 경우에 최신정보 반영과 약물 관련 상세정보(상호작용) 제공에 있어 할루시네이션(Hallucination) 현상 같은 다소 제한적인 경향을 보였다. 또한, 일부 질문에 대한 응답에서 불확실하거나 모르겠다는 답변을 한 후 다시 답변을 제시하는 오류가 관찰되었다. 이는 정보 처리 및 불확실성 관리 측면에서의 한계를 드러내며 답변의 일관성과 신뢰성을 저하시켰다.

결과를 종합해보면, 연구에서 제안하는 검색증강 생성 기술이 적용된 챗봇 시스템은 아직 복잡한 질문에 대한 고도의 추론 능력에서는 다소 부족한 면모를 보인다. 그러나 다양한 예시 문서 형태를 기반으로 질문과 관련된 정보를 유사하게 찾아내는 능력은 일반 GPT 기반 챗봇 시스템 대비 뚜렷하게 향상되었다. 이러한 외부 지식 기반의 확장을 통해 질문에 대응하는 핵심 내용을 세밀하고 정확하게 반영할 수 있었던 점에 주목할 수 있다. 다만, 찾아낸 정보를 사용자의 질문에 적절하게 통합하고 자연스러운 응답으로 완성하는 과정에서는 여전히 개선의 여지가 존재한다. 검색된 지식을 효과적으로 요약하거나 맥락에 맞게 재구성하는 능력이 제한적이어서, 일부 답변에서 부자연스럽거나 핵심에서 벗어난 표현이 발견되었다.

그럼에도 불구하고, 검색증강 생성 기술이 적용된 챗봇 시스템은 일반 GPT 기반 챗봇 시스템에 비해 여러 형태의 자료를 기반으로 상세하고 정확한 정보를 전달할 가능성이 있으며, 신뢰성 있는 응답 제공에 있어 전반적인 진전을 이룰 수 있다고 평가할 수 있다. 이는 향후 모델의 추론 능력 강화와 응답 생성 과정에서의 문맥 이해 능력 개선을 통하여, 일반의약품과 같이 정확한 정보 전달이 중요한 의료 분야에서 입증된 여러 공식 자료들에 기반 한 더욱 높은 활용 가능성을 보여준다.

5. 결 론

본 논문에서는 국내 체류 외국인을 위한 일반의약품 챗봇 서비스를 설계 및 구현하였다. 특히 GPT 모델에 대해 프롬프트 튜닝을 활용하여 공공데이터 기반 응답 제공을 통해 답변의 정확성을 향상하고, 제한된 문맥에 대한 문제를 해결하고자 하였다. 또한, 파인튜닝을 통하여 답변의 문체 등의 일관성을 높이고자 하였다. 이를 통해 기존 GPT 기반 챗봇 보다 뛰어난 답변의 성능을 보였다. 또한, 검색증강 생성 기술을 도입하여 향상된 실제 실시간 데이터 기반 답변 제공을 구현하기 위한 가능성을 보였다. 그러나 GPT의 번역능력에 의존하므로 번역능력 향상에 관한 추가 연구가 필요할 것으로 판단된다. 또한, 검색증강 생성 기술 기반 답변방식의 검증은 샘플 문서를 기반으로 진행되었다. 따라서 추후 다양한 형태의 문서를 통한 추가적인 성능 검증이 필요하다. 본 연구를 통해 GPT 모델을 기반으로 공공데이터 기반의 답변 및 다국어 지원의 가능성을 확인하였다. 또한, 검색증강 생성 방식의 답변 구현에 대한 연구로, 실시간 데이터(문서 등)에 기반한 확장 가능성을 확인하였다. 결론적으로 본 연구를 통해 국내에 체류 중인 외국인들이 국내 일반의약품 정보를 쉽게 이해할 수 있을 것이라 기대한다.

Acknowledgements

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학지원사업의 연구결과로 수행되었음(2021-0-01393).

References

1 
J. J. Park, “A development of chatbot for emotional stress recognition and management using NLP,” The Transactions of the Korean Institute of Electrical Engineers, vol. 67, no. 7, pp. 954-961, 2018.DOI:10.5370/KIEE.2018.67.7.954DOI
2 
C. N. Ramadhani, “Chatbots in pharmacy: A boon or a bane for patient care and pharmacy practice?,” Sciences of Pharmacy, vol. 2, no. 3, pp. 117-133, 2023.DOI:10.58920/sciphar02030001DOI
3 
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, A. Kaiser and I. Polosukhin, “Attention is all you need,” Advances in Neural Information Processing Systems, vol. 30, no. 1, pp. 5998-6008, 2017.DOI:10.48550/arXiv.1706.03762DOI
4 
Y. Xian, C. H. Lampert, B. Schiele and Z. Akata, “Zero-shot Learning - A comprehensive evaluation of the good, the bad and the ugly,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 9, pp. 2251-2265, 2019.DOI:10.1109/TPAMI.2018.2857768DOI
5 
O. Vinyals, C. Blundell, T. Lillicrap and D. Wierstra, “Matching networks for one shot learning,” Advances in Neural Information Processing Systems, vol. 29, pp. 3630-3638, 2016.DOI:10.48550/arXiv.1606.04080DOI
6 
J. Snell, K. Swersky and R. Zemel, “Prototypical networks for few-shot learning,” Advances in Neural Information Processing Systems, vol. 30, pp. 4077-4087, 2017.DOI:10.48550/arXiv.1703.05175DOI
7 
S. Gururangan, A. Marasović, S. Swayamdipta, K. Lo, I. Beltagy, D. Downey and N. A. Smith, “Don't stop pretraining: Adapt language models to domains and tasks,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp 8342-8360, 2020.DOI:10.18653/v1/2020.acl-main.740DOI
8 
I. K. M. Jais, A. R. Ismail and S. Q. Nisa, “Adam optimization algorithm for wide and deep neural network,” Knowledge Engineering and Data Science, vol. 2, no. 1, pp. 41-46, 2019.DOI:10.17977/um018v2i12019p41-46DOI
9 
Cheonsu Jeong, “Domain-specialized LLM: Financial fine-tuning and utilization method using Mistral 7B,” Journal of Intelligence and Information Systems, vol. 30, no. 1, pp. 93-120, 2024.DOI:10.13088/jiis.2024.30.1.093DOI
10 
P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Küttler, M. Lewis, W.-T. Yih, T. Rocktäschel, S. Riedel and D. Kiela, “Retrieval-augmented generation for knowledge-intensive NLP tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459-9474, 2020.DOI:10.48550/arXiv.2005.11401DOI
11 
J. C. Kim, E. B. Cho and J. H. Chang, “Construction of Dataset for the 5 Major Violent Crimes Through Collection and Preprocessing of Judgment,” Journal of artificial intelligence convergence technology, vol. 5, no. 1, pp. 11-16, 2025.DOI:10.23374/jaict.2025.5.1.002DOI
12 
R. Karthick, “Context-Aware Topic Modeling and Intelligent Text Extraction Using Transformer‑Based Architectures,” Journal of Science Technology and Research, vol. 6, no. 1, pp. 1-13, 2025.DOI:10.2139/ssrn.5275391DOI
13 
S. E. Lee, H. Yoo, K. Chung, “Pose Pattern Mining Using Transformer for Motion Classification,” Applied Intelligence, vol. 54, no. 5, pp. 3841-3858, 2024.DOI:10.1007/s10489-024-05325-0DOI
14 
J.W. Baek, K. Chung, “Multi-context mining based graph neural network for predicting emerging health risk,” IEEE Access, vol. 11, pp. 15153-15163, 2023.DOI:10.1109/ACCESS.2023.3243722DOI
15 
S. M. Jo, “A Study on Technical Analysis of Efficient Recommendation Systems,” Journal of Artificial Intelligence Convergence Technology, vol. 5, no. 1, pp. 17-22, 2025.DOI:10.23374/jaict.2025.5.1.003DOI
16 
S. M. Jo, “A Study on Generalization Performance Analysis of Artificial Intelligence Data Learning Techniques,” Journal of Artificial Intelligence Convergence Technology, vol. 5, no. 2, pp. 55-60, 2025.DOI:10.23374/jaict.2025.5.2.001DOI

저자소개

조항준(Hangjun Jo)
../../Resources/kiee/KIEE.2025.74.11.1972/au1.png

He is currently pursuing the B.S degree with the Division of Computer Science & Engineering, Kyonggi University, South Korea. His research interest include server development, RAG and artificial intelligence.

김서영(Seoyeong Kim)
../../Resources/kiee/KIEE.2025.74.11.1972/au2.png

She is currently pursuing the B.S degree with the Division of Computer Science & Engineering and Life Sciences, Kyonggi University, South Korea. Her research interests include artificial intelligence and bioinformatics.

정대원(Daewon Jeong)
../../Resources/kiee/KIEE.2025.74.11.1972/au3.png

He is currently pursuing the B.S. degree with the Division of Computer Science & Engineering, Kyonggi University, South Korea. His research interests include artificial intelligence and deep learning.

오희빈(Heebin Oh)
../../Resources/kiee/KIEE.2025.74.11.1972/au4.png

She is currently pursuing the B.S. degree in the Department of Artificial Intelligence and Computer Engineering at Kyonggi University, South Korea. Her research interests include artificial intelligence, especially natural language processing, as well as system modeling and chatbot QA development.

정경용(Kyungyong Chung)
../../Resources/kiee/KIEE.2025.74.11.1972/au5.png

He has received B.S., M.S., and Ph.D. degrees in 2000, 2002, and 2005, respectively, all from the Department of Computer Information Engineering, Inha University, South Korea in 2000, 2002, and 2005, respectively. He has worked for the Software Technology Leading Department, Korea IT Industry Promotion Agency (KIPA). He has been a professor in the Division of AI Computer Science and Engineering, Kyonggi University, South Korea. He was named a 2017 Highly Cited Researcher by Clarivate Analytics.