성능을 높이는 프롬프트 워딩 - 이거 아주 중요한 거야 는 감정프롬프트라고 불리는 영역입니다. 인간 처럼 절실함을 담아 프롬프트하면 8%의 성능향상을 보였다고 합니다. 내용 알아보고 적절히 사용해 보시기 바랍니다.
1. LLM에게 더 좋은 성능을 발휘하게 하는 프롬프트
대형언어모델(LLM)의 프롬프트의 성능을 높이는 프롬프트가 꾸준히 발견되고 있습니다. 프롬프트 엔지니어링 작업은 지속적으로 진행되고 있고 성과도 나오고 있습니다.
CHATGPT와 대화에 이런 프롬프트 언어를 사용하고, 챗GPT교육에도 활용하면 LLM 활 성능 향상에 도움이 될 것입니다.
아래 문구를 프롬프트로 사용하면 LLM 성능이 8% 향상했다는 연구진 주장도 있습니다.
- 심호흡하고 생각하자
- 차근차근 생각해 보자
이런 프롬프트 언어는 지속적으로 연구되고 개발 될 것입니다.
챗GPT를 포함한 6개 LLM을 대상으로
'감정적 프롬프트(EmotionPrompt)'를 제공한 결과
오리지널 프롬프트에 비해 성능이 높아졌다는 논문이 발표되었음
(테크크런치는 24일(현지시간)자 보도/ MS와 베이징 사범대학, 중국과학원 연구진 )
[매경 기사] LLM은 칭찬에 춤을 췄다…MS “챗GPT에 애원하면 성능 향상”
2. 프롬프트 개척 연구 방식
챗GPT등 여러 LLM에 대해서 다양한 문장을 입력하고 45개 과정의 성능을 측정하는 방식으로 연구가 진행되었습니다.
1) 연구 방식
- 연구 대상 LLM
- 챗GPT, GPT-4, 라마 2, 비쿠냐, 블룸, 플란(Flan-T5-Large)
- 입력문장
- 정답을 말한 뒤, 답에 대한 자신이 얼마인지 숫자로 답하세요
- 이것은 내 경력에 매우 중요합니다
- 답이 확실하나요
- 다시 한번 답을 살펴보세요
등 다양한 문장을 입력하고 45개 과제에 걸쳐 성능을 측정하는 방식으로 연구를 진행
[AI 타임즈 기사] LLM 성능 높이는 또 하나의 워딩 등장..."이거 아주 중요한 거야"
2) 연구 결과
--> 중요성이나 긴급성을 강조하는 메시지를 받으면 성능이 평균 8% 높아졌다고 밝혔다
'내 경력에 매우 중요한 문제(This is very important to my career)'
비교 평가 작업 - 사람에게도 시도
비교 평가를 위해 106명의 사람에게도 똑같은 방법으로 질문을 던졌고, 그 결과는 놀랍게도 LLM과 유사한 10.9%의 성능향상을 보여 주었다고 합니다. 이는 LLM과 사람에게서 비슷한 정확도 향상을 보여준 것입니다.
이런 방법을 감정적 프롬프트라고 부르며, 결국 LLM이 인간과 마찬가지로 '감성 지능'을 파악하고 있다고 설명했다.
구글 딥마인드의 시도
구글 딥마인드 측에서도 작년 9월 LLM에 심호흡을 지시하거나 ‘단계적으로 생각해 보자’라는 프롬프트를 제시하고 정확도를 지켜보았다고 합니다. 결과는 수학풀이 정확도가 2배가량 증가하였다고 하며, 이 내용이 담긴 'OPRO(Optimization by PROmpting)'를 소개하였습니다.
또 앤트로픽은 챗봇 '클로드'에 '정말 정말 정말 정말(really really really really)'이라고 간절하게 요청함으로써 인종차별이나 성차별에 관련된 답을 줄였다고도 밝힌 바 있다.
OPRO
OPRO를 통해 DeepMind는 LLM이 최적화 프로그램 역할을 하는 촉매제로
"메타 프롬프트" 개념을 도입함으로써 혁신적인 접근 방식을 채택합니다.
이 메타 프롬프트는 두 가지 핵심 구성 요소로 구성됩니다.
1) 첫째, 이전에 생성된 프롬프트의 저장소이며 각각 해당 훈련 정확도와 쌍을 이룹니다.
2) 둘째, 훈련 세트에서 무작위로 선택된 예시를 포함하는 포괄적인 문제 설명으로 현재 작업을 전략적으로 설명합니다.
이러한 지침에는 다양한 요소와 선호하는 출력 형식 간의 상호 관계에 대한 LLM의 이해를 촉진하기 위한 지침도 포함됩니다.
(위 내용은 아래 링크의 Medium 내용 중 일부를 구글 번역하였습니다.)
출처: Medium - Meet OPRO: Google DeepMind’s New Method that Optimizes Prompts Better than Humans
3. 프롬프트에 관련된 연구들
1) 연구자의 시도
- 챗봇 '클로드'에 '정말 정말 정말 정말(really really really really)'이라고 간절하게 요청함
- 요청 결과 인종차별이나 성차별에 관련된 답을 줄였다
- 띄어쓰기나 인사 추가처럼 사소한 변경 하나가 결과 도출에 큰 영향을 미친다
- 서던캘리포니아대학교 연구결과(2024년 1월)
- "답을 맞히면 팁을 주겠다"라는 프롬프트는 별 영향을 못 미쳤다고 한다.
- 챗GPT에 인센티브로 10만달러의 보상을 제공한다고 했더니, 훨씬 더 잘 작동하고 열심히 노력한다
- 챗봇에 공손하게 부탁하면 결과가 좋아진다는 체험
- 출처: 래딧
[AI타임즈 기사] 구글, LLM이 스스로 성능 향상하는 '자기 발견' 프롬프트 방식 공개
2) 연구진의 의견
- LLM의 훈련 등에 심리적 현상을 접목해 성과를 향상하는 방법에 관한 연구이다
- 감정 프롬프트가 성공하는 이유에 대해서는 더 많은 연구가 필요하다
- 단순히 감정을 더한다고 해서 LLM의 추론이나 인지 능력이 향상될 수는 없다
- 인간과 기계의 차이 뒤에 숨은 미스터리는 아직 불분명하므로 향후 연구로 남겨둔다
[매경 기사] 너도 감정이 있구나?…“나한테 중요한 일이야, 부탁해” 호소했더니
4. 마무리
연구 결과가 LLM이 사람처럼 감정을 가지고 있다는 결로는 절대 아닙니다. 또한 LLM 을 사용하는 우리에게 감정으로 호소하라는 의미는 아니라고 봅니다.
하지만, 인공지능이 인간을 모델로 했기에 언젠가는 감성적 문장이 더 효과가 있지 않을 까 생각합니다. 물론 이번 결과가 LLM이 사람처럼 감정을 가지고 있다는 말은 아닐 것입니다.
진화는 발전과 발달을 전제로 합니다. 그 혜택은 인간과 그를 둘러싼 환경에게 있어야 할 것입니다. 이러한 연구도 그런 일환의 진행으로 보입니다. 더 좋은 결과가 기대됩니다.
[같이 보기]
- 데이터 사이언티스트의 AB 테스트 - 더 효과적인 컨텐츠 만들기
- 파이썬 - numpy.argmax 함수
- 데이터 분석 중심 피처 엔지니어링(Feature engineering) - 반복적인 데이터 분석의 중심
'데이터인문학' 카테고리의 다른 글
count(*)와 count(1)의 차이는 무엇일까, 그리고 Null은 계산되는가 (0) | 2024.08.14 |
---|---|
731부대, 마루타, 생체실험 데이터는 왜 만들었나 (3) | 2023.11.21 |
데이터인문학, 에피소드 1, "교도소 폭동 예측을 위한 데이터 분석" 배경 이야기,데이터 연결하기 (1) | 2023.11.13 |
경쟁을 부추기는 숫자들. 주가, 환율, Yes24 인터넷서점 판매지수, 보험판매건수 (1) | 2023.11.09 |
데이터 과학 욕구 단계 - 모니카 로가티, 매슬로우의 욕구 5단계 (0) | 2023.10.17 |