1. GPT, 이름부터 뜯어보자
GPT는 Generative Pre-trained Transformer의 약자입니다. 이 세 단어만 이해해도 핵심 원리를 알 수 있습니다.
- Generative (생성하는): 사용자의 질문에 맞춰 새로운 응답을 '생성'합니다.
- Pre-trained (사전 학습된): 방대한 데이터를 '미리 학습'한 상태를 기반으로 합니다.
- Transformer (트랜스포머): 구글이 개발한 '트랜스포머'라는 딥러닝 아키텍처 기술을 활용합니다.
2. Pre-trained
GPT는 엄청난 양의, 수많은 분야의 문장들을 단어 순서대로 학습합니다. 단순히 문장을 외우는 것이 아니라, "이 단어 다음에는 어떤 단어가 올까?"를 끊임없이 예측하며 배웁니다.
예를 들어 볼까요?
[학습 예시 1] "나는 파스타를 먹었는데 느끼했다."
- 나는 → 파스타를
- 파스타를 → 먹었는데
- 먹었는데 → 느끼했다
[학습 예시 2] "나는 짬뽕을 먹었는데 시원했다."
- 나는 → 짬뽕을
- 짬뽕을 → 먹었는데
- 먹었는데 → 시원했다
AI는 이런 수많은 데이터를 통해, 질문의 맥락과 지금까지 쓰인 문장의 흐름에 맞춰 가장 적절한 다음 단어를 선택하여 응답을 완성해 나갑니다.
모델이 이해하는 '문맥'과 '단어'
그렇다면 AI는 단어의 뜻을 사전처럼 외우고 있을까요? 아닙니다. 주변 단어들과의 관계(Context)를 통해 의미를 파악합니다.
- 문맥 속 의미 파악 (동음이의어)
- "[눈]이 [내린다]" → '내린다'는 단어를 보니 Snow이군.
- "[눈]이 잘 [보이지] 않는다" → '보인다'는 단어를 보니 Eye이군.
- 단어의 연관성 확인
- "[남자] 화장실이 어디죠?", "[여자] 화장실이 어디죠?"
- → 남자와 여자라는 단어는 문장 내에서 비슷한 역할을 하는 관계성이 있군.
- 문법적 구조 학습
- "___이 ___이다."
- → '이다'라는 서술어는 문장 맨 앞에 오지 않는군. (단어의 순서를 통한 문법 확인)
3. 결론: GPT는 '지식인'이 아니라 '확률 계산기'다
우리는 종종 AI가 세상의 모든 지식을 완벽하게 이해하고 있다고 착각합니다. 하지만 결론적으로 말하자면, GPT는 세상의 지식을 이해한 것이 아닙니다.
수많은 문장을 학습한 결과를 바탕으로, "지금까지의 단어 사용 패턴을 봤을 때, 이 상황에서는 확률적으로 이 단어가 나올 차례야"라고 계산하여 단어를 배치하는 것입니다.
4. 왜 거짓말을 할까? (할루시네이션 현상)
가끔 AI가 아주 그럴듯하게 거짓말을 하는 경우를 보셨을 겁니다. 이를 할루시네이션(Hallucination, 환각)이라고 합니다.
왜 이런 현상이 발생할까요?
이유는 간단합니다. AI의 작동 방식 때문입니다.
AI는 질문에 대해 "이것은 팩트(Fact)다, 아니다"를 판단해서 답하는 구조가 아닙니다. 앞서 말했듯 확률에 근거하여 다음에 나올 단어를 선택하여 문장을 만드는 구조이기 때문입니다.
즉, 사실 여부와 관계없이 확률적으로 가장 자연스러운 단어를 연결하다 보니, 문법적으로는 완벽하지만 내용은 거짓인 문장이 만들어지기도하는 것입니다.
5. 할루시네이션을 줄이기 위한 노력
이러한 한계를 극복하기 위해 기업들은 다양한 기술을 도입하고 있습니다.
- 브라우징 (Browsing) 기능: AI가 자신의 학습 데이터에만 의존하지 않고, 직접 인터넷을 탐색(검색)하여 최신 정보를 확인하도록 합니다.
- 어텐션 (Attention) 메커니즘 활용: 브라우징의 결과에서 어떤 단어가 중요한지 빠르게 파악하고 집중(Attention)하게 하여, 문맥을 놓치지 않고 더 정확한 응답을 생성하도록 돕습니다.
6. Transformer ( 필수적인 내용 X )
GPT의 핵심 엔진인 트랜스포머(Transformer)는 단순히 데이터를 읽는 것이 아니라, 겹겹이 쌓인 구조를 통해 정보를 깊이 있게 처리합니다.

① 여러 겹의 인코더와 디코더 (Encoder & Decoder)
트랜스포머는 크게 정보를 받아들이는 인코더와 정보를 내보내는 디코더로 나뉩니다. 중요한 점은 이것이 각각 하나씩이 아니라 여러 개가 층층이(Layer) 쌓여 있다는 것입니다.
- 인코더 (Encoder) = 핵심 요약과 추상화
입력된 문장을 여러 번의 인코더 층을 통과시키며 정보를 압축하고 추상화합니다. 문장의 겉모습뿐만 아니라 그 안에 담긴 '의도'와 '본질'을 숫자로 변환해 추출하는 과정입니다. (마치 책을 여러 번 정독하며 핵심 내용을 머릿속에 정리하는 것과 같습니다.) - 디코더 (Decoder) = 표현 생성
인코더가 정리한 핵심 정보를 바탕으로, 디코더 층을 거치며 사용자가 이해할 수 있는 언어로 표현을 생성합니다. 추상적인 개념을 구체적인 단어와 문장으로 풀어내는 단계입니다.
참고: GPT(Generative Pre-trained Transformer)는 이 중에서도 '생성'에 특화된 디코더 구조를 집중적으로 활용하여 만들어진 모델입니다.
② 쉴 새 없이 작동하는 '어텐션(Attention)'
이 모든 인코더와 디코더 층 사이사이에는 '어텐션(Attention)' 기술이 빠짐없이 들어갑니다.
입력을 추상화할 때도(인코더), 결과를 생성할 때도(디코더) AI는 끊임없이 "지금 이 순간, 문맥상 무엇이 가장 중요한가?"를 계산합니다. 덕분에 긴 문장 속에서도 길을 잃지 않고 문맥을 유지할 수 있는 것입니다.
※ 본 글은 『프롬프트 엔지니어링: 생성형 AI를 자유자재로 다루는 비밀열쇠』 (반병현 저) 3장을 기반으로 학습 목적으로 요약한 글입니다.
※ 이 글은 책의 내용을 상당히 요약한 것으로, 원문 없이 읽을 경우 오해의 여지가 클 수 있습니다. 정확한 이해를 위해 원서의 정독을 권장합니다.
'AI > 책_프롬프트 엔지니어링: 생성형 AI를 자유자재로 다루는 비밀 열쇠' 카테고리의 다른 글
| Chapter 6. 어텐션의 집착성을 고려한 기법 (0) | 2025.12.11 |
|---|---|
| Chapter 5. LLM의 구조와 원리를 고려한 기법 (0) | 2025.12.10 |
| Chapter 4. LLM의 기본 기능을 고려한 기법 (0) | 2025.12.10 |
| Chapter 2. 모든 것은 어텐션으로부터 시작되었다. (0) | 2025.12.08 |
| Chapter 1. 프롬프트 엔지니어링은 단순히 '질문을 잘하는 것'이 아니다. (0) | 2025.12.07 |