단순히 일반적인 질문을 던지면 모델은 방대한 학습 데이터 기반의 광범위한 답변을 생성할 수 있습니다. 강화학습 기법을 사용하면 모델의 출력 범위를 사용자가 원하는 특정 맥락으로 제한하여, 불필요한 정보를 줄이고 응답의 정확도와 실용성을 크게 높일 수 있습니다.

 

*강화 학습이란

수행자의 행동에 대한 피드백(긍정, 부정)을 바탕으로, 긍정 피드백을 최대로 받을 수 있는 방향으로 최적의 행동을 찾는 학습 방법입니다.


1. 정적 강화

AI의 응답에서, 마음에 드는 구간에 대해 긍정적인 피드백을 제공하여 그 방식대로 계속 출력하도록 유도합니다. 이 방법은 장기적으로 가장 효과적인 프롬프팅 기법으로 알려져 있습니다.

초기 프롬프트 (일반적 질문) 후속 프롬프트 (정적 강화)
최근 AI 트렌드에 대해 500 이내로 설명해 . 방금 네가 작성한 글에서 '미래 전망' 부분이 정말 깊이가 있고 설득력이 있었어. 미래 전망을 핵심 내용으로, ~~~

 

정적 강화의 한계점: 단기 성능 향상의 어려움

정적 강화는 AI의 장기적인 성능과 유연성을 향상시키는 데 효과적이지만, 즉각적이고 단기적인 문제 해결에는 한계가 있습니다.

AI가 잘못된 결과물을 냈을 때, 칭찬 대신 명확한 교정 지침(정적 처벌)을 주는 것이 오류를 빠르게 수정하는 데 훨씬 효과적일 수 있습니다. 


2. 정적 처벌

AI의 응답에서, 불필요하거나 원치 않는 정보(장황함, 특정 주제 언급 등)에 대해, 명시적으로 그 부분을 삭제하거나 피하도록 지시하는 방법입니다.

초기 프롬프트 (모델의 잘못된 출력 가정) 후속 프롬프트 (정적 처벌)
(모델의 답변에 역사적 배경이나 개인적인 견해가 포함된 경우) "답변의 길이가 너무 길고, 역사적 배경이나 주관적인 의견은 완전히 제외해 주세요. 오직 요청한 개념에 대한 정의와 핵심 특징 3가지 간결하게 설명해 주세요."

※ 본 글은 『프롬프트 엔지니어링: 생성형 AI를 자유자재로 다루는 비밀열쇠』 (반병현 저) 8장을 기반으로 학습 목적으로 요약한 글입니다.

※ 이 글은 책의 내용을 상당히 요약한 것으로, 원문 없이 읽을 경우 오해의 여지가 클 수 있습니다. 정확한 이해를 위해 원서의 정독을 권장합니다.