
대 격변의 AI 시대를 맞이하며, 나 또한 LLM을 활용한 기술을 공부하고자 한다.
기회가 생겨 패스트캠퍼스에서 테디님이 진행하는 LangChain · LangGraph 강의를 수강하게 되었고,
이 강의를 통해 LangChain, LangGraph, 그리고 RAG(Retrieval-Augmented Generation) 기술을
제대로 익혀보려고 한다.
공부를 시작하기에 앞서, 궁금한 것이 있다.
이미 ChatGPT나 Gemini 같은 훌륭한 도구가 있는데,
우리는 왜 굳이 RAG를 배우고, 나만의 LLM 시스템을 구축해야 할까?
이 질문에 답하기 위해서는, 현재 우리가 ChatGPT를 사용하면서 겪는 한계부터 정리해볼 필요가 있다.
ChatGPT가 가진 구조적 한계
현재의 ChatGPT는 전 세계 사용자를 대상으로 학습된 범용 LLM이다.
범용은 분명 장점도 있지만, 동시에 명확한 단점도 존재한다.
1. 최신 정보를 알지 못한다.
LLM은 학습 시점 이후의 정보를 스스로 알 수 없다.
오늘 발행된 뉴스, 방금 발생한 사건, 최신 정책이나 공지에 대해 질문하면
정확한 답변을 기대하기 어렵다.
2. 개인/회사 내부 데이터를 모른다.
ChatGPT는
- 나의 개인 문서
- 회사 내부 정책
- 사내 기술 문서
- 도메인 특화 데이터
이런 나만의 개인적인 데이터에 대해 학습되어 있지 않다.
결국 "우리 회사 기준으로", "내 데이터 기준으로" 질문하면 원하는 답을 얻기 힘들다.
3. 파일을 업로드해도 완전하지 않다.
물론 ChatGPT에 문서를 업로드하고 질문할 수는 있다.
하지만 실제로 사용해보면, 다음과 같은 문제가 발생한다.
- 문서에 없는 내용을 추론
- 문서의 특정 문단을 정확히 짚지 못함
- 문서가 많아질수록 할루시네이션 발생
또한 ChatGPT 내부 RAG가 어떤 과정을 거쳐 답변을 만드는지 전혀 알 수가 없다.
검색을 했는지, 어떤 문서를 참고했는지, 왜 이 답변을 하는지.... 모두 블랙박스 투성이다.
그래서 이런 단점, 문제점을 해결하기 위해 필요한 것이 바로바로 RAG 이다.
RAG란 무엇인가?
RAG는 Retrieval-Augmented Generation,
즉 검색 + 증강 + 생성을 결합한 구조이다.
단순히 LLM에게 바로 질문하는 것이 아니라,
1. 사용자가 질문을 한다.
2. 질문과 관련된 문서를 검색(Retrieval) 한다.
3. 검색된 문서를 컨텍스트로 증강(Augmentation) 한다.
4. 그 컨텍스트를 기반으로 답변을 생성(Generation) 한다.
이 과정을 설계 하는 것이다.
결과적으로 나만의 LLM은
"내가 알고 있는 일반 지식"이 아니라, "지금 주어진, 검증 가능한 정보"를 기반으로 답변하게 된다.
따라서 내가 데이터만 컨텍스트로 주입하게 되면,
- 최신 뉴스
- 개인/회사 도메인에 특화된 답변
- 할루시네이션 감소
- 답변 과정의 투명성(어떤 문서, 어떤 부분에 의해 답변하는지)
위와 같은 것을 모두 반영한 답변이 가능하게 되는 것이다.
그래서 LangChain, LangGraph를 배우는 이유
RAG는 단순한 개념이 아니라 구조 설계다.
- 문서를 어떻게 나눌지
- 어떤 임베딩 모델을 쓸지
- 어떤 Vector DB를 쓸지
- 검색 전략은 어떻게 가져갈지
- 여러 단계를 어떻게 연결하지
이 모든 것을 직접 설계해야 한다.
LangChain과 LangGraph는
이 복잡한 RAG 파이프라인을 체계적으로 구성하고, 확장하고, 추적할 수 있게 해주는 도구이다.
이번 테디님의 강의를 학습하며
LangChain, LangGraph, Rag를 하나의 흐름으로 이해하고,
실제로, 내가 직접 구현하여 사용할 수도 있는 AI 시스템을 만들어보는 것이 목표다.
'AI' 카테고리의 다른 글
| 왜 LangChain인가? - OpenAI API 호출부터 LCEL 체인 이해까지 (0) | 2026.02.11 |
|---|