검색증강생성

1. 개요2. 배경

2.1. 지식 기반 질의응답 시스템의 한계2.2. 비정형 텍스트 데이터의 폭발적 증가2.3. 사전 학습된 언어 모델의 발전2.4. 지식 검색과 답변 생성의 통합 필요성

3. 주요 구성 요소 및 작동 방식

3.1. 주요구성요소

3.1.1. 검색기(Retriever)

3.1.1.1. 정확한 의미론적 표현 추출

3.1.1.1.1. 청크 최적화(Chunk Optimization)3.1.1.1.2. 임베딩 모델의 미세 조정(Fine-tuning Embedding Models)

3.1.1.2. 사용자의 질의(Query)와 검색 대상이 되는 문서들의 의미론적 공간 일치

3.1.1.2.1. 질의 재작성(Query Rewrite)3.1.1.2.2. 임베딩 변환(Embedding Transformation)

3.1.1.3. 검색기 출력과 대규모 언어 모델(LLM)의 선호도(Preference) 일치시키기

3.1.1.3.1. LLM 감독 학습(LLM Supervised Training)3.1.1.3.2. 어댑터 플러그인(Plug in an adapter)

3.1.2. 생성기(Generator)

3.1.2.1. 검색 결과의 후처리를 통한 개선 방법

3.1.2.1.1. 정보 압축(Information Compression)3.1.2.1.2. 순위 다시 매기기(ReRank)

3.1.2.2. 입력 데이터에 적응(adapt)하도록 생성기를 최적화

3.1.2.2.1. 일반적인 최적화 과정 (General Optimization Process)3.1.2.2.2. 대조 학습 활용 (Utiliziing Contrastive Learning)

3.1.3. 증강 방법(Augmentation Methods)

3.2. 작동 방식

3.2.1. 검색3.2.2. 생성

4. 장점

4.1. 비용 효율성4.2. 최신 정보4.3. 신뢰성 향상4.4. 부정확한 응답 및 환각 현상 감소

5. 단점

5.1. 외부 의존성5.2. 개인정보 보호 문제5.3. 창의성 제한

6. 적용 사례

6.1. 상용 사례

6.1.1. Mircrosoft Bing Search6.1.2. OpenAI's WebGPT6.1.3. Anthropic’s Constitutional AI(CAI)6.1.4. Perplexity AI6.1.5. 기타 적용 가능 사례

6.2. 일상 적용 가능 사례

6.2.1. 질의 응답 시스템6.2.2. 콘텐츠 추천

7. 전망8. 참고 및 출처

1. 개요

검색증강생성, RAG(Retrieval-Augmented Generation)는 대규모 언어 모델(LLM)의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스 기술이다. 쉽게 말하면, 검색증강생성(RAG)은 대규모 언어 모델(LLM)에서 질문에 대한 답변이나 텍스트를 생성하기 전에 광범위한 문서 집합에서 관련 정보를 검색하고, 이를 이용하여 응답을 생성하는 방법이라고 할 수 있다. 검색증강생성 기술은 Facebook AI Research(FAIR)에서 개발되었는데, FAIR의 연구자들이 2020년에 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에서 처음 제안되었다. 이후 RAG 기술은 많은 자연어처리 연구 분야에서 많은 관심을 받고 있다.

2. 배경

대규모 언어 모델(LLM)은 지능형 챗봇 및 기타 자연어 처리 애플리케이션을 지원하는 핵심 인공 지능 기술이다. 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 사전 학습하여 강력한 언어 이해 및 생성 능력을 갖추고 있지만, 가능한 답변이 없으면 허위로 정보를 제공하거나[1], 오래 되거나 일반적인 정보를 제공하기도 하고, 복잡한 맥락을 이해하는데 어려움을 겪기도 하 등의 문제점이 있다. 검색증강생성(RAG)는 이러한 대규모 언어 모델(LLM)이 가진 사실 관계 오류 가능성이나 맥락 이해의 한계를 개선하는 것에 초점을 맞추고 제안된 기술이다. 구체적으로 더 RAG의 등장 배경과 필요성을 살펴보면 다음과 같다.

2.1. 지식 기반 질의응답 시스템의 한계

초기의 질의응답 시스템은 주로 제한된 도메인의 구조화된 데이터를 기반으로 동작했다. 이는 시스템이 다룰 수 있는 주제와 질문의 유형이 한정적이라는 문제가 있었다. 사용자의 다양한 정보 요구를 충족시키기 위해서는 보다 광범위한 지식을 활용할 수 있는 시스템이 필요하게 되었다.

2.2. 비정형 텍스트 데이터의 폭발적 증가

인터넷의 발달과 디지털 기기의 보급으로, 웹페이지, 뉴스 기사, 소셜 미디어 게시물 등 비정형 텍스트 데이터가 기하급수적으로 증가하고 있다. 이러한 대규모 텍스트 데이터는 방대한 지식을 포함하고 있어, 질의응답 시스템의 지식 베이스로 활용할 수 있는 잠재력이 높다. 그러나 비정형 데이터를 효과적으로 처리하고 활용하기 위해서는 기존과는 다른 접근 방식이 필요하게 되었다.

2.3. 사전 학습된 언어 모델의 발전

BERT나 GPT 같이 사전 학습된 대규모 언어 모델의 등장은 자연어 처리 분야에 큰 변화를 가져왔다. 이러한 언어 모델은 방대한 테스트 데이터로부터 언어의 구조와 의미를 학습하여, 다양한 언어 이해 및 생성에 뛰어난 성능을 보여주었다. 사전 학습된 언어 모델을 질의응답 시스템에 활용함으로써, 보다 자연스럽고 문맥을 고려한 답변 생성이 가능해졌다.

2.4. 지식 검색과 답변 생성의 통합 필요성

기존의 질의응답 시스템은 지식 검색과 답변 생성을 별도의 단계로 처리하는 경우가 많았다. 이로 인해 검색된 정보와 생성된 답변 사이의 정합성이 떨어지는 문제가 발생했다. 지식 검색과 답변 생성을 통합적으로 수행할 수 있는 프레임워크의 필요성이 제기되었고, 이는 RAG 아키텍쳐의 등장으로 이어졌다.

3. 주요 구성 요소 및 작동 방식

3.1. 주요구성요소

검색증강생성의 주요 구성 요소를 크게 쪼개어 보면 검색기(Retriever), 생성기(Generator), 그리고 증강 방법(Augmentation Method)으로 나누어 볼 수 있다.

3.1.1. 검색기(Retriever)

검색기(Retriever)는 RAG라는 약어의 맨 앞 글자인 R을 나타내고 있을 정도로 시스템에서 중요한 정보 탐색 역할을 한다. 검색기는 대규모 데이터 집합에서 관련 정보를 찾아내어 텍스트 생성을 위한 데이터들을 준비하는 작업을 하는데, 이러한 검색기는 LLM의 일반적인 지식과 현재, 맥락적으로 정확한 정보의 필요성 사이의 간격을 메우는 데 사용된다. 이는 실시간 데이터, 특정 분야 전문 지식 또는 사실 확인이 필요한 시나리오에서 특히 중요하다. 검색기와 관련해서는 3가지로 나누어 볼 수 있다.

3.1.1.1. 정확한 의미론적 표현 추출

RAG 시스템에서 질의와 문서는 의미론적 공간, 즉 다차원 공간에 매핑된다. 검색기는 이렇게 구성된 의미론적 공간 내에서 검색을 수행하므로, 의미론적 표현이 정확하지 않으면 검색 결과 또한 부정확하게 된다. 의미론적 공간을 일치시키는 것에는 2가지 방법이 있다. 첫번째는 청크 최적화이고, 다른 하나는 임베딩 모델을 미세 조정하는 것이다.

3.1.1.1.1. 청크 최적화(Chunk Optimization)

외부 문서 처리의 첫 단계는 입력된 문서를 적당한 크기의 조각(chunk)으로 분할하는 것이다. 이렇게 분할된 조각은 모두 같은 크기의 벡터로 임베딩되므로, 각 청크의 크기를 적절히 조절하는 것이 중요하다. 적절히 조절된 크기로 외부 문서를 분할하는 경우 검색 결과의 정확성과 관련도가 크게 향상될 수 있다. 청크 전략 선택 시 콘텐츠의 특성, 사용되는 임베딩 모델, 사용자 질의의 기대 길이 및 복잡성 등을 고려하는 것이 중요하다.

3.1.1.1.2. 임베딩 모델의 미세 조정(Fine-tuning Embedding Models)

적절한 청크 크기를 얻은 후, 이 청크들과 질의를 의미론적 공간에 임베딩하는 단계에서의 미세 조정을 통해 더 정확한 의미론적 표현을 얻을 수 있다. 다양한 뛰어난 임베딩 모델들이 개발되었으나, 특정 도메인에 적용될 때 도메인 특정 코퍼스 정보를 정확하게 표현하지 못할 때 이러한 미세조정이 중요하다. 이러한 미세조정을 통해 사용자 질의와 콘텐츠 관련성과의 관계를 더 잘 이해할 수 있도록 돕는다. 특정 도메인에 특화된 데이터셋을 구축하여 임베딩 모델을 미세 조정할 수 있다. 또한, 세부적인 작업(downstream task)에 맞춰 추가적인 파인튜닝이 필요할 수 있다.

3.1.1.2. 사용자의 질의(Query)와 검색 대상이 되는 문서들의 의미론적 공간 일치

RAG 애플리케이션에서 어떠한 검색기는 사용자 질의와 문서들을 인코딩할 때 동일한 임베딩 모델을 사용하기도 하지만, 사용자 질의와 문서들을 인코딩할 때 서로 다른 임베딩 모델을 사용하는 검색기도 있다. 또한, 사용자의 질의가 충분한 정보를 포함하지 않는 경우에는 사용자 질의의 의미론적 표현이 검색에 부적절할 수 있다. 검색 품질을 높이기 위해 사용자의 질의와 문서의 의미론적 공간을 일치시키는 것에는 2가지 방법이 있다.

3.1.1.2.1. 질의 재작성(Query Rewrite)

질의 재작성은 사용자의 원래 질의와 문서 간의 의미론적 일치를 향상시키기 위해 질의를 변형하는 방법으로, 사용자의 표현력이 부족하거나 의미론적 정보가 불충분한 경우에 유용합니다. 질의 재작성 시에는 HyDE와 STEP-BACKPROMPTING과 같은 방법들을 사용합니다. HyDE 방법은 대규모 언어 모델의 능력을 활용하여 가상의 문서를 생성하고 이를 원래 질의와 결합하여 새로운 질의를 형성하는 방식이고, STEP=BACKPROMPTING 방법은 대규모 언어 모델이 추상적 추론을 수행하고, 이를 기반으로 검색을 수행하도록 하는 방법이다.

3.1.1.2.2. 임베딩 변환(Embedding Transformation)

임베딩 변환은 질의와 문서를 동일한 의미론적 공간에 매핑하여 그들 간의 관련성을 높이는 방법으로, 검색의 정확성을 향상시키기 위한 주요 기술이다. 먼저 임베딩 모델을 사용하여 질의와 문서를 벡터로 변환하고, 이들 간의 의미론적 유사성을 높이는 방식으로 검색 결과의 관련성(releavance)과 질의에 대한 응답의 정확성을 향상시킨다.

3.1.1.3. 검색기 출력과 대규모 언어 모델(LLM)의 선호도(Preference) 일치시키기

위에서 살펴본 방법들을 사용하여 검색 적중률(retrieval hit rate)을 높이더라도 검색된 결과 문서들이 LLM이 필요로 하는 문서가 아닐 수 있다. 이러한 경우 RAG의 최종적인 성능 효과가 개선되지 않기 때문에, 검색기의 출력(output)과 LLM의 선호도(preferences)를 일치시키는 방법들을 알아둘 필요가 있다.

3.1.1.3.1. LLM 감독 학습(LLM Supervised Training)

LLM 감독 학습은 검색기의 성능을 향상시키기 위해 대규모 언어 모델(LLM)로부터의 피드백 신호를 받아 임베딩 모델을 파인튜닝하는 방법이다. 즉, LLM이 선호하는 문서 유형을 파악하고, 이러한 선호도에 맞춰 검색기를 파인튜닝하여 검색 결과를 개선한다.

3.1.1.3.2. 어댑터 플러그인(Plug in an adapter)

RAG 구현시 임베딩 모델 대신 API를 사용하거나, 임베딩 모델의 파인튜닝을 위한 컴퓨팅 자원이 부족한 경우 임베딩 모델 자체를 파인튜닝하는 것이 어려울 수 있다. 이러한 경우에는 외부의 어댑터를 추가적으로 부착(plug-in)하는 방식으로 정렬할 수도 있다.

3.1.2. 생성기(Generator)

생성기(Generator)의 역할은 검색된 결과를 활용하여 사용자에게 제공할 답변을 생성하는 것이다. 검색된 정보를 효과적으로 활용하여 정확하고 관련성 높은 답변을 생성하기 위해, 정보를 압축하고 순위를 다시 매기는 후처리 과정과 입력 데이터에 적응하는 최적화 과정을 수행한다.

3.1.2.1. 검색 결과의 후처리를 통한 개선 방법

검색 결과의 후처리(Post-retrieval Processing)는 대규모 언어 모델이 갖는 토큰 길이의 제약이나 중복 정보에 대한 취약성과 같은 문제들을 해결하기 위해 시작되었다. 이러한 후처리는 검색기가 검색한 정보들을 대규모 문서 데이터베이스를 사용하여 추가적인 처리나 필터링, 최적화하는 과정으로, 검색 품질을 향상시키는 것이 목적이다. 주로 정보 압축(Information Compression)과 순위 다시 매기기(ReRank) 등의 방법들을 사용한다.

3.1.2.1.1. 정보 압축(Information Compression)

검색기가 광범위한 지식 기반으로부터 관련 정보를 가져오더라도 검색 문서에 포함된 방대한 양의 정보를 다루는 것은 여전히 쉽지 않은 일이다. 이를 해결하기 위해 언어 모델의 컨텍스트 윈도우 길이를 늘리는 시도도 있으나, 여전히 길이의 제한이 있기 때문에 여기에서는 입력 정보를 압축하여 크기를 줄이는 방법을 시도하고 있다.

3.1.2.1.2. 순위 다시 매기기(ReRank)

순위를 다시 매기는 재순위 모델(Reordering Model)의 핵심 역할은 검색기로부터 검색된 문서 결과들을 최적화하는 것이다. 많은 정보들이 제공되어는 경우 대규모 언어 모델(LLM)의 성능이 저하될 수 있으므로, 결과 문서들을 재배열하여 가장 관련성 높은 항목들을 상위에 배치함으로써 검색 결과의 수를 줄이는 것이다.
그 외에도, 순위를 다시 매기는 과정에서 맥락 압축(context compression)을 도입하는 것은 주어진 질의의 맥락에 기반하여 관련 정보만 반환하는 것을 목표로 한다. 이 접근법은 검색 결과에서 가장 관련성 높은 정보를 집중적으로 보여주고, 개별 문서의 내용을 줄이며 전체 문서를 필터링하는 데 있다. 따라서 재순위 모델은 정보 검색 과정 전반을 최적화하고 정제하는 역할을 하여, 후속 LLM 처리에 대해 더 효과적이고 정확한 입력을 제공하는 것을 목표로 한다.

3.1.2.2. 입력 데이터에 적응(adapt)하도록 생성기를 최적화

생성기(Generator)의 최적화는 RAG 모델 설계 시 중요한 부분이다. 앞서 설명했던 것처럼 생성기의 주된 임무는 검색된 정보를 취하여 관련 텍스트를 생성하는 것이며, 이를 통해 모델의 최종 출력을 제공하게 된다. 입력 데이터의 다양성과 추가 정보의 도입이 모델의 이해에 영향을 미치기 때문에, 검색된 문서에 대한 후처리와 파인튜닝 단계가 필수적이다. 생성기 최적화와 관련해서는 최적화 절차와 함께 대조 학습(Contrastive Learning)을 활용하는 방법이 있다.

3.1.2.2.1. 일반적인 최적화 과정 (General Optimization Process)

생성기의 최적화 과정은 대규모 언어 모델(LLM)의 일반적인 파인 튜닝 방법과 유사하다. 기본적으로 모델이 주어진 입력 x에 대해 출력 y를 생성할 수 있도록 학습하는 데 중점을 둔다. Self-mem에서는 상대적으로 전통적인 학습 과정이 사용되었다. 주어진 입력 x에 대해 관련 문서 z를 검색하여 입력 쌍 (x,z)를 준비한 뒤, 이 입력을 바탕으로 출력 y를 생성하도록 모델을 학습한다.

3.1.2.2.2. 대조 학습 활용 (Utiliziing Contrastive Learning)

대조 학습(Contrastive Learning)은 기계 학습에서 모델의 일반화 능력을 향상시키는 데 사용되는 기법이다. 일반적인 생성형 모델에서는 학습 과정에서만 학습 데이터의 실제 데이터를 사용하고, 생성 단계에서는 모델이 생성한 토큰에 의존하여 다음 토큰을 예측하게 되는 상황에서 발생하는 노출 편향(exposure bias) 문제가 있을 수 있다. 대조 학습은 긍정적 예시와 부정적 예시를 모두 제시하여 학습 데이터의 패턴만 따르지 않게 하고, 다양한 유형의 데이터를 사용하여 일반화 능력이 향상된다. 즉, 검색 및 생성 작업에서 모델이 편향된 학습 데이터에 지나치게 적합되는 것을 방지하고 다양하고 합리적인 출력을 생성하도록 돕는다.

3.1.3. 증강 방법(Augmentation Methods)

증강 단계, 데이터 소스의 증강, 증강 절차 등으로 구분된다.

증강 단계	데이터 소스의 증강	증강 절차
RAG의 증강 단계(Augmentation Stage)는 언어 모델(LM) 학습 과정에서 중요한 역할을 한다. 이 단계는 사전 학습(Pre-training), 파인튜닝(Fine-tuning), 추론(Inference)의 세 가지 주요 단계로 구분된다. 각 단계별에서 사용되는 방법론들은 RAG 시스템의 효율성과 정확성을 향상시키는 데 중점을 둔다.	데이터 소스는 RAG의 효율성에 영향을 미치는 핵심적인 요소이다. 다양한 데이터 소스는 지식의 서로 다른 세분화 정도(granularity)와 측면(dimension)을 제공하며, 증강 시에는 서로 다른 처리 방식이 필요하다. 이러한 데이터 소스는 크게 비정형 데이터, 정형 데이터, 그리고 LLM이 생성한 콘텐츠의 3가지 범주로 나뉘어다.	반복적 검색(iterative retrieval)과 적응형 검색(adaptive retrieval)과 같은 방식으로 검색 절차를 최적화한다. 이러한 방법들은 검색 프로세스를 여러번 반복하거나 다양한 세부 작업 및 시나리오에 더 잘 적용(adaptive)할 수 있도록 조정하게 된다.

3.2. 작동 방식

①벡터화:사용자의 질문은 벡터로 인코딩 되어 벡터 DB로 전송된다.
②검색: 벡터 DB는 외부 지식 베이스에서 관련 정보를 검색한다.
③순위: 검색된 결과들 중 관련도가 높은 지식이 생성기의 입력으로 전달된다.
④생성: 생성기는 검색된 지식을 활용하여 사용자 질문에 대한 답변을 생성한다.

이는 RAG의 작동 방식을 요약하여 나타낸 것이다. 검색 증강 생성의 작동 방식을 더 구체적으로 살펴보면 RAG는 검색에서 시작하여 생성으로 이어지는 다단계 프로세스이다.

3.2.1. 검색

RAG는 입력 쿼리로 시작된다. 이는 사용자의 질문일 수도 있고 자세한 응답이 필요한 텍스트일 수도 있다. 검색 모델은 지식 기반, 데이터베이스, 외부 소스 또는 여러 소스에서 동시에 관련 정보를 가져온다. 모델 검색 위치는 입력 쿼리가 요청하는 내용에 따라 달라질 수 있다. 이렇게 검색된 정보는 이제 모델에 필요한 모든 사실과 컨텍스트에 대한 참조 소스 역할을 한다. 검색된 정보는 고차원 공간의 벡터로 변환된다. 이러한 지식 벡터는 벡터 데이터베이스에 저장된다. 검색 모델은 입력 쿼리와의 관련성을 기준으로 검색된 정보의 순위를 매긴다. 추가 처리를 위해 가장 높은 점수를 받은 문서나 구절이 선택되게 된다.

3.2.2. 생성

다음으로 LLM과 같은 생성 모델은 검색된 정보를 사용하여 텍스트 응답을 생성한다. 생성된 텍스트는 문법적으로 정확하고 일관성이 있는지 확인하기 위해 축적인 후처리 단계를 거칠 수 있다. 이러한 응답은 검색 모델이 제공한 추가 정보에 의해 다음어졌기 때문에 전체적으로 더 정확하고 컨텍스트에 더 부합한다. 이 기능은 퍼블릭 인터넷 데이터가 부족한 전문 도메인에서 특히 중요한 역할을 한다.

4. 장점

4.1. 비용 효율성

챗봇 개발은 일반적으로 파운데이션 모델을 사용하여 시작된다. 파운데이션 모델은 광범위한 일반화 데이터와 레이블이 지정되지 않은 데이터에 대해 훈련된 API 엑세스 기능 LLM이다. 도메인별 정보를 위해 파운데이션 모델을 재교육하는 데 드는 계산 및 재정적 비용이 많이 드는데, RAG는 LLM에 새 데이터를 도입하기 위한 보다 비용 효율적인 접근 방식이다. 이를 통해 생성형 인공 지능 기술을 보다 폭넓게 접근하고 사용할 수 있다..

4.2. 최신 정보

RAG를 사용하여 생성 모델에 최신 연구, 통계 또는 뉴스를 제공할 수 있다. RAG를 사용하여 LLM을 라이브 소셜 미디어 피드, 뉴스 사이트 또는 기타 자주 업데이트 되는 정보 소스에 직접 연결할 수 있고, 이는 LLM이 사용자에게 최신의 정보를 제공할 수 있게 만들어 주는 역할을 한다.

4.3. 신뢰성 향상

RAG은 LLM은 소스의 저작자 표시를 통해 정확한 정보를 제공할 수 있다. 출력에는 소스에 대한 인용 또는 참조가 포함될 수 있다. 사용자는 추가 설명이나 세부 정보가 필요한 경우 소스 문서를 직접 찾아볼 수도 있다. 이를 통해 생성형 AI 솔루션에 대한 신뢰와 확신을 높일 수 있다.

4.4. 부정확한 응답 및 환각 현상 감소

LLM 모델의 출력은 관련된 외부 지식에 기반하므로 RAG는 부정확하거나 허구의 정보를 사용한 대응(환각 현상)의 위험을 완화한다.

5. 단점

5.1. 외부 의존성

RAG는 외부 지식에 의존하므로, 검색된 정보가 올바르지 않으면 부정확한 결과가 나올 수 있다.

5.2. 개인정보 보호 문제

외부 소스에서 정보를 검색하면 민감한 정보를 다룰 때 개인정보 보호 문제가 발생할 수 있다. 개인정보 보호 및 규정 준수 요구 사항을 준수하는 것으로 인해 RAG가 액세스할 수 있는 소스가 제한될 수도 있다.(그러나 이러한 문제는 특정 역할에 엑세스 및 보안 권한을 부여할 수 있는 문서 수준 엑세스를 통해 해결할 수 있기도 하다.)

5.3. 창의성 제한

RAG는 사실적 정확성을 기반으로 한다. 상상력이 풍부하거나 허구적인 콘텐츠를 생성하는 데 어려움을 겪을 수 있으며, 이로 인해 창의적인 콘텐츠 생성에 사용이 제한될 수 있다.

6. 적용 사례

6.1. 상용 사례

6.1.1. Mircrosoft Bing Search

2023년 2월, Microsoft는 Bing 검색 엔진에 RAG 기술을 적용한 대화형 AI 기능을 추가했다. 이는 사용자의 검색 질의에 대해 웹 페이지의 정보를 활용하여 자연어로 응답을 생성하며, 제공된 응답의 근거가 되는 웹 페이지 링크를 함께 제시한다.

6.1.2. OpenAI's WebGPT

OpenAI는 GPT 모델에 RAG 기술을 적용한 WebGPT를 개발 중에 있다. WebGPT는 웹 검색을 통해 획득한 지식을 활용하여 사용자의 질의에 대한 응답을 생성할 것으로 예상된다. 아직 공개된 서비스는 아니지만, 향후 RAG 기술의 발전 방향을 보여주는 사례로 주목받고 있다.

6.1.3. Anthropic’s Constitutional AI(CAI)

Anthrophic사는 RAG 기술을 활용한 대화형 AI 모델인 CAI를 개발했다. CAI는 대화 과정에서 외부 지식을 활용하여 사용자의 질문에 답변을 생성한다. 이는 생성된 응답의 근거가 되는 출처를 명시하여 신뢰성을 높여준다.

6.1.4. Perplexity AI

Perplexity AI는 RAG 기반의 질의응답 서비스를 제공하는 스타트업이다. 사용자의 질문에 대해 웹 검색을 통해 관련 정보를 수집하고, 이를 바탕으로 응답을 생성한다. 제공된 응답의 출처와 검색 과정을 사용자에게 투명하게 공개한다.

6.1.5. 기타 적용 가능 사례

위에 소개된 사례들은 RAG 기술의 초기 적용 단계라고 볼 수 있다. RAG의 잠재력이 입증 됨에 따라 앞으로 더 많은 분야에서 RAG 기반의 서비스들이 등장할 것으로 예상된다. 특히, 검색 엔진, 가상 어시스턴트, 고객 서비스 등의 분야에서 RAG 기술이 활발히 도입될 것으로 보인다. 기술적 진보와 함께 사회적, 윤리적 문제에 대한 고민이 병행되어야 RAG가 실생활에 안전하게 적용될 수 있을 것이다.

6.2. 일상 적용 가능 사례

6.2.1. 질의 응답 시스템

검색증강생성을 적용한 질의 응답 시스템은 사람들이 흔히 인터넷 검색을 활용하여 정보를 검색하는 과정을 한 단계 발전시킬 수 있다. AI 어시스턴트가 사용자의 질문을 분석하고, 방대한 데이터베이스에서 정확한 정보를 검색하여, 상세하고 정확한 답변을 생성한다. 예를 들면, 고객 응대 챗봇이 사용자의 복잡한 질문에 대해 실시간으로 정확한 답변을 제공할 수 있고, 이는 고객 만족도를 높이고, 인간 상담원의 업무 부담을 줄이는 데 크게 기여할 수 있다.

6.2.2. 콘텐츠 추천

검색증강생성은 사용자 맞춤형 콘텐츠 추천에 이상적으로 활용될 수 있다. 예를 들어, 온라인 쇼핑몰에서는 사용자의 이전 검색 기록과 선호도를 분석하여, 가장 적합하고 매력적인 제품이나 콘텐츠를 추천할 수 있으며, 이러한 추천 시스템은 구매 전환율을 높이며, 사용자에게 개인화된 쇼핑 경험을 제공할 수 있다.

7. 전망

RAG 모델은 정보 검색과 자연어 생성 기술의 결합으로 다양한 분야에서 혁신적인 변화를 일으킬 수 있는 잠재력을 가지고 있다. 지속적인 기술 발전과 더불어 다양한 산업 분야로의 확장, 개인화 서비스의 발전, 실시간 정보 업데이트 능력 등은 RAG 모델의 전망을 밝게 하고 있다. 또한, 고객 경험 개선과 AI 연구 촉진, 윤리적 고려와 규제 발전, 비즈니스 모델의 다양화 등은 RAG 모델이 앞으로 더욱 중요한 역할을 할 것임을 시사한다.

8. 참고 및 출처

Shanghai Research Institute for Intelligent Autonomous Systems, Tongji University, Retrieval-Augmented Generation for Large Language Models: A Survey
Amazon Web Services, 검색 증강 생성(RAG)이란 무엇인가요?
모두의 연구소, 박성돈, RAG(검색 증강 생성)란? – LLM 단점을 보완하는 기술
elastic, 검색 증강 생성(RAG)이란?
부경대학교 인적자원개발센터, AI의 정확성을 높이는 검색증강생성 RAG
한국무역협회, 새로운 지능의 시대: 검색증강생성(RAG)에서 인공일반지능(AGI)까지
지평선 위 도서관, 검색 증강 생성 RAG: AI가 정보를 찾고 이야기하는 방식
ITWORLD, 생성형 AI에서 빠진 조각, RAG가 완성한다
Byline Network, [그게 뭔가요] 생성AI 환각 줄이는 ‘RAG’
appen, 검색 증강 생성(RAG)이란? 정의, 구성 요소, 사용 사례, 평가 지표

[1] https://www.hankookilbo.com/News/Read/A2023022215200000727, 한국일보, "세종대왕 맥북 던짐 사건 알려줘" 물었더니... 챗GPT의 엉뚱 답변 '밈'으로 유행 중, 23/02/23

검색증강생성

1. 개요

2. 배경

2.1. 지식 기반 질의응답 시스템의 한계

2.2. 비정형 텍스트 데이터의 폭발적 증가

2.3. 사전 학습된 언어 모델의 발전

2.4. 지식 검색과 답변 생성의 통합 필요성

3. 주요 구성 요소 및 작동 방식

3.1. 주요구성요소

3.1.1. 검색기(Retriever)

3.1.1.1. 정확한 의미론적 표현 추출

3.1.1.1.1. 청크 최적화(Chunk Optimization)

3.1.1.1.2. 임베딩 모델의 미세 조정(Fine-tuning Embedding Models)

3.1.1.2. 사용자의 질의(Query)와 검색 대상이 되는 문서들의 의미론적 공간 일치

3.1.1.2.1. 질의 재작성(Query Rewrite)

3.1.1.2.2. 임베딩 변환(Embedding Transformation)

3.1.1.3. 검색기 출력과 대규모 언어 모델(LLM)의 선호도(Preference) 일치시키기

3.1.1.3.1. LLM 감독 학습(LLM Supervised Training)

3.1.1.3.2. 어댑터 플러그인(Plug in an adapter)

3.1.2. 생성기(Generator)

3.1.2.1. 검색 결과의 후처리를 통한 개선 방법

3.1.2.1.1. 정보 압축(Information Compression)

3.1.2.1.2. 순위 다시 매기기(ReRank)

3.1.2.2. 입력 데이터에 적응(adapt)하도록 생성기를 최적화

3.1.2.2.1. 일반적인 최적화 과정 (General Optimization Process)

3.1.2.2.2. 대조 학습 활용 (Utiliziing Contrastive Learning)

3.1.3. 증강 방법(Augmentation Methods)

3.2. 작동 방식

3.2.1. 검색

3.2.2. 생성

4. 장점

4.1. 비용 효율성

4.2. 최신 정보

4.3. 신뢰성 향상

4.4. 부정확한 응답 및 환각 현상 감소

5. 단점

5.1. 외부 의존성

5.2. 개인정보 보호 문제

5.3. 창의성 제한

6. 적용 사례

6.1. 상용 사례

6.1.1. Mircrosoft Bing Search

6.1.2. OpenAI's WebGPT

6.1.3. Anthropic’s Constitutional AI(CAI)

6.1.4. Perplexity AI

6.1.5. 기타 적용 가능 사례

6.2. 일상 적용 가능 사례

6.2.1. 질의 응답 시스템

6.2.2. 콘텐츠 추천

7. 전망

8. 참고 및 출처

분류