생성형 AI는 정말 ‘생각’하고 있을까? — LLM의 사고(Thinking) vs 추론(Reasoning) 능력의 차이

한빛미디어

2025-04-10

by 시난 오즈데미르

1,118

제미나이, 클로드-3, 라마-3 GPT-4와 같은 현재의 생성형 LLM이 생각^Thinking 하기보다 주어진 맥락에서 추론 ^Reasoning 하는 데 더 뛰어나다고 말하는 것은 다소 논란의 여지가 있을 수 있습니다. 그래서 이 지점에서 개념을 분명히 짚고 넘어갈 필요가 있습니다. 여기서 ‘생각’이란, 프롬프트에 명시된 맥락 없이도 인코딩된 정보를 스스로 기억하고 활용하는 능력을 뜻합니다. 개별 LLM 출력에서 한 발짝 물러나서 보면 AI 시스템에는 고유한 ‘목소리’ 또는 ‘스타일’이 있으며, 그 스타일은 단조롭고 반복적인 경우가 많다는 사실도 알 수 있습니다. 게다가 이러한 ‘AI 말투’는 여러 모델에서도 볼 수 있습니다.

저는 ‘생성형 AI 모델들에게 동일한 내용을 물어보면 어떤 답변을 줄까?’라는 질문에 대한 답이 궁금해 4개의 생성형 AI (구글의 제미나이, 코히어의 커맨드 R, 앤트로픽의 클로드 소네트, 오픈AI의 GPT-4)에 똑같은 프롬프트를 넣어보았습니다. 책 <쉽고 빠르게 익히는 실전 LLM(2판)>의 4장을 최대 5개의 문장으로 요약해 달라 요청했죠. 그 결과 아래에서 볼 수 있듯이 놀라울 정도로 유사한 답변을 얻었습니다.

생성형 AI들이 제공한 요약 결과는 모두 원본 텍스트에서 가져왔으며 일부는 그대로 옮겨온 것을 알 수 있습니다. 모두 새로운 문장을 만들어내는 것이 아니라 제가 쓴 문장을 재구성한 것이 특징입니다. 이러한 결과가 나쁘다고 이야기 하는 것은 아닙니다. 대부분의 생성형 AI 모델이 컨텍스트가 주어지면 스스로 문장을 만들어내기보다는 컨텍스트를 직접 사용하는 것을 선호한다는 것을 보여줍니다.

프롬프트 엔지니어링을 소개한 책 <쉽고 빠르게 익히는 실전 LLM(2판)> 3장에서는 퓨샷 학습과 연쇄적 사고 프롬프트를 통해 생성형 AI의 일관성과 원하는 스타일의 결과물을 이끌어내는 방법을 소개했습니다. 아래 그림은 GPT-4와 같은 모델이 즉석에서 답을 떠올려야 하는 경우보다 문제를 먼저 추론한 후 답을 내야 하는 경우(추론)가 더 정확하다는 사실을 상기시켜 줍니다.

지금까지 살펴본 연쇄적 사고와 퓨샷 학습 개념을 바탕으로, 실제 AI 애플리케이션에서 이들이 어떻게 활용되는지 살펴보겠습니다. 특히 생성형 AI의 실전 활용 예로 주목받고 있는 두 가지 방식—검색 증강 생성(RAG)과 자동화된 AI 에이전트—을 중심으로 설명합니다.

1. 검색 증강 생성(RAG)

사람들이 발견한 LLM의 즉각적인 문제 중 하나는 환각을 하는 경향이 있다는 것이었습니다. 이러한 환각적 행동에 대한 대중적인 대응책은 검색 증강 생성 시스템을 만드는 것이었는데, 이는 T5, GPT, 라마와 같은 생성 모델과 BERT와 같은 검색 기반 모델을 결합하여 검색 모델에서 얻은 정보로 생성 모델의 입력을 채우는 것이었습니다. 2020년 원본 논문인 「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」의 다이어그램을 보여줍니다.

원본 RAG 논문에는 RAG 성능을 미세 조정하기 위한 고급 훈련 방법이 포함되어 있습니다 (출처: Lewis,
P. 외. 「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」)

검색 증강 생성^{Retrieval-Augmented Generation}(RAG)는 단순한 텍스트 생성기를 넘어서 외부 정보에 접근하여 더 정확한 응답을 생성하는 접근법입니다. 사용자 쿼리가 입력되면 먼저 외부 지식베이스에서 관련 정보를 검색(Retrieval)한 후, 이 정보를 컨텍스트로 활용해 생성형 모델(Generation)이 최종 응답을 만듭니다. GPT와 같은 생성에 특화된 모델과 BERT처럼 검색에 강점을 가진 모델의 장점을 결합한 "검색 + 생성" 구조를 가집니다.

검색기 ^retriever: 기준 정답을 저장소에 저장하고 쿼리가 주어졌을 때 이를 검색하는 LLM.
생성기 ^generator: 사용자의 쿼리와 검색된 지식을 추론하여 인라인 대화형 답변을 제공하는 LLM.

의미 기반 검색 API 중 하나가 자연어 쿼리가 주어졌을 때 데이터셋에서 문서를 검색하는 데 사용되었다는 것을 기억하세요. RAG 시스템을 시작하려면 다음 네 단계를 완료하기만 하면 됩니다.

퓨샷 학습과 연쇄적 사고 프롬프트를 통해 선호하는 대화 구조를 보여주는 GPT -4용 시스템 프롬프트를 설계합니다.
사람이 봇에 질문을 하면 의미 기반 검색 시스템에 쿼리를 시작합니다. 책에서는 청킹, 벡터화, 인덱싱등 대부분의 어려운 작업을 수행했습니다. 이제 시스템을 구축한 목적, 즉 실시간 컨텍스트를 이용하는 용도로 간단히 사용할 수 있습니다.
DB에서 찾은 모든 컨텍스트를 GPT -4의 시스템 프롬프트에 직접 주입합니다.
GPT-4가 알아서 질문에 답하도록 내버려둡니다.

이런 단계들을 아래 이미지와 같이 간략하게 설명할 수 있습니다.

의미 기반 검색 AP를 활용하여 대화형 인터페이스를 제공하기 위해 GPT-4를 사용하는 검색 증강 생성 챗봇의 대략적인 구조 (출처: <쉽고 빠르게 익히는 실전 LLM(2판)>, 2025, 한빛미디어)

더 자세히 살펴보기 위해 프롬프트 수준에서 이 기능이 어떻게 작동하는지 단계별로 나누어 살펴봅시다.

출처: <쉽고 빠르게 익히는 실전 LLM(2판)>, 2025, 한빛미디어

이 네 가지 상태는 챗봇이 어떻게 설계되었는지를 나타냅니다. 사용자가 지식 베이스에서 신뢰할 수 있는 문서를 찾아내면, 해당 문서는 시스템 프롬프트에 즉시 삽입되고, GPT-4는 이 문서들만 참고하여 답변하도록 설정됩니다.

2. 자동화된 AI 에이전트

널리 사용되는 AI 프레임워크와 애플리케이션의 방향으로 나아갈 때, 정보를 수집하고 인라인으로 사용할 수 있는 기능을 갖춘 RAG 시스템의 자연스러운 확장은 ‘AI 에이전트’라는 개념입니다.

AI 에이전트는 사용자로부터 입력을 받아 도구 상자의 도구를 활용해 작업을 수행합니다. (출처: <쉽고 빠르게 익히는 실전 LLM(2판)>, 2025, 한빛미디어)

일반적으로 AI 에이전트는 사용자를 대신 하여 작업을 수행하는 여러 ‘도구’에 액세스할 수 있는 생성기(RAG에서와 같이)가 있는 AI 시스템을 말합니다. 이러한 도구는 정보 조회부터 코드 작성 및 실행, 이미지 생성, 주식 포트폴리오 잔고 확인에 이르기까지 다양합니다.

에이전트의 행동: 생각 → 행동 → 관찰 → 답변

에이전트가 어떻게 행동해야 하는지에 대한 단일한 방법은 없습니다. 널리 사용되는 방법 중 하나는 각 쿼리를 네 단계로 나누는 것입니다.

생각: 생성 구성 요소(이 예에서는 GPT -3.5 )가 입력에 따라 어떤 행동을 취할지 추론하도록 합니다.
행동: AI가 취할 행동과 행동에 대한 입력(예: 구글의 검색어)을 모두 결정하도록 합니다.
관찰: 도구의 답변을 프롬프트에 전달하여 생성기가 컨텍스트에 맞게 사용할 수 있도록 합니다.
답변: AI가 처음 세 단계의 컨텍스트를 사용하여 사용자에게 인라인으로 답변을 작성하도록 합니다.

이러한 단계들을 거쳐 생성된 답변은, 사용자에게는 자연스럽고 친근한 대화처럼 느껴지며 바로 활용 가능한 형태로 제공됩니다.

AI 에이전트는 사용자에게 답변해야 할 뿐만 아니라 여러 단계를 거쳐 미리 추론해야 합니다. (출처: <쉽고 빠르게 익히는 실전 LLM(2판)>, 2025, 한빛미디어)

이러한 사고 패턴을 실제로 구현하기 위해 퓨샷 학습과 연쇄적 사고 프롬프트 (AI가 답변하기 전에 각 단계를 거치도록 함)를 모두 사용하여 프롬프트를 작성하는 것이 필요합니다.

마치며

RAG 시스템과 AI 에이전트에 대한 탐구를 통해서 맥락, 적응성, 그리고 사용할 수 있는 도구에 대한 깊은 이해의 중요성이라는 핵심 주제를 다시 강조하고 싶습니다. 데이터베이스를 활용 하여 답변의 근거를 마련하든, 사용자 쿼리를 해결하기 위해 디지털 도구를 활용하든, 이러한 애플리케이션의 성공 여부는 LLM의 생성 기능과 외부 데이터 소스 또는 도구의 특수성 및 신뢰성 간의 미묘한 균형에 달려 있습니다.

이제 우리는 AI 애플리케이션의 다음 단계를 내다보는 지점에 서 있습니다. 이 시점에 우리에게 중요한 것은 이 여정이 현재 진행형임을 인식해야 합니다. AI의 환경은 끊임없이 진화하고 있으며, 기술과 사람의 요구가 교차하는 지점에 새로운 도전과 기회가 등장하고 있습니다. RAG 시스템과 AI 에이전트의 개발 및 평가에서 얻은 통찰력은 종착점이 아니라 더 정교하고 공감하며 효과적인 AI 애플리케이션을 향한 디딤돌입니다.

제 책 <쉽고 빠르게 익히는 실전 LLM(2판)>에서는 윤리적 고려사항, 기술적 장애물, AI 애플리케이션의 미지의 영역에 대해 더 자세히 살펴볼 것입니다. 우리의 목표는 단순히 동작하는 AI 시스템을 만드는 것이 아니라 사람의 능력을 향상시키고 이해를 증진하며 궁극적으로 삶을 풍요롭게 하는 경험을 창출하는 것입니다.

AI 생태계는 방대하고 다양하며 잠재력과 함정으로 가득 차 있습니다. 하지만 사려 깊은 접근 방식과 명확한 비전이 있다면 기술적으로 뛰어날 뿐만 아니라 의미 있고 영향력 있는 솔루션을 구성하는 데 필요한 요소들을 구성할 수 있습니다. 이것이 바로 새로운 발견, 창의성, 지속적인 개선의 여정인 AI 애플리케이션의 핵심입니다.

위 콘텐츠는 『쉽고 빠르게 익히는 실전 LLM(2판)』에서 발췌하여 작성하였습니다.

TAG : LLM ,대규모언어모델 ,생성형AI ,AI 추론 ,RAG ,AI에이전트 ,GPT4 ,인공지능 ,프롬프트

이전 글 : AI가 직접 작업하는 시대, MCP 활용법 총정리 (feat. Claude)

다음 글 : [편집후기] "이 책은 AI 시대의 문해력을 키우는 최고의 입문서입니다." - 『쉽고 빠르게 익히는 실전 LLM(2판)』

IT/모바일