단순히 일반적인 질문을 던지면 모델은 방대한 학습 데이터 기반의 광범위한 답변을 생성할 수 있습니다. 강화학습 기법을 사용하면 모델의 출력 범위를 사용자가 원하는 특정 맥락으로 제한하여, 불필요한 정보를 줄이고 응답의 정확도와 실용성을 크게 높일 수 있습니다.
*강화 학습이란
수행자의 행동에 대한 피드백(긍정, 부정)을 바탕으로, 긍정 피드백을 최대로 받을 수 있는 방향으로 최적의 행동을 찾는 학습 방법입니다.
1. 정적 강화
AI의 응답에서, 마음에 드는 구간에 대해 긍정적인 피드백을 제공하여 그 방식대로 계속 출력하도록 유도합니다. 이 방법은 장기적으로 가장 효과적인 프롬프팅 기법으로 알려져 있습니다.
| 초기 프롬프트 (일반적 질문) | 후속 프롬프트 (정적 강화) |
| 최근 AI 트렌드에 대해 500자 이내로 설명해 줘. | 방금 네가 작성한 글에서 '미래 전망' 부분이 정말 깊이가 있고 설득력이 있었어. 미래 전망을 핵심 내용으로, ~~~ |
정적 강화의 한계점: 단기 성능 향상의 어려움
정적 강화는 AI의 장기적인 성능과 유연성을 향상시키는 데 효과적이지만, 즉각적이고 단기적인 문제 해결에는 한계가 있습니다.
AI가 잘못된 결과물을 냈을 때, 칭찬 대신 명확한 교정 지침(정적 처벌)을 주는 것이 오류를 빠르게 수정하는 데 훨씬 효과적일 수 있습니다.
2. 정적 처벌
AI의 응답에서, 불필요하거나 원치 않는 정보(장황함, 특정 주제 언급 등)에 대해, 명시적으로 그 부분을 삭제하거나 피하도록 지시하는 방법입니다.
| 초기 프롬프트 (모델의 잘못된 출력 가정) | 후속 프롬프트 (정적 처벌) |
| (모델의 답변에 역사적 배경이나 개인적인 견해가 포함된 경우) | "답변의 길이가 너무 길고, 역사적 배경이나 주관적인 의견은 완전히 제외해 주세요. 오직 요청한 개념에 대한 정의와 핵심 특징 3가지만 간결하게 설명해 주세요." |
※ 본 글은 『프롬프트 엔지니어링: 생성형 AI를 자유자재로 다루는 비밀열쇠』 (반병현 저) 8장을 기반으로 학습 목적으로 요약한 글입니다.
※ 이 글은 책의 내용을 상당히 요약한 것으로, 원문 없이 읽을 경우 오해의 여지가 클 수 있습니다. 정확한 이해를 위해 원서의 정독을 권장합니다.
'AI > 책_프롬프트 엔지니어링: 생성형 AI를 자유자재로 다루는 비밀 열쇠' 카테고리의 다른 글
| Chapter 7. 롤 플레잉 (0) | 2025.12.12 |
|---|---|
| Chapter 6. 어텐션의 집착성을 고려한 기법 (0) | 2025.12.11 |
| Chapter 5. LLM의 구조와 원리를 고려한 기법 (0) | 2025.12.10 |
| Chapter 4. LLM의 기본 기능을 고려한 기법 (0) | 2025.12.10 |
| Chapter 3. 당신은 LLM과 그 사용법을 오해하고 있다. (0) | 2025.12.09 |