대규모 언어 모델
LLM 의 학습에는 pretraining 이 중요하다.
다음 글은 위의 내용을 정리 한 것이다.
Large Language Model(LLM) 들은 2가지 stage 를 거쳐서 학습하게 된다.
- general-purpose representations(범용 표현)을 배우기 위한, raw text 로 하는 ‘unsupervised pretraining’.
- ‘대규모 명령어 튜닝(large scale instruction tuning)’ 과 ‘강화학습(reinforcement learning)’ 을 통해 end tasks 와 사용자 선호도에 더 잘 일치하게 한다.(to better align)
‘강화학습’ 또는 ‘인간선호도에 대한 모델링’ 없이 LIMA 를 훈련해서, 이 2개의 step 중 어느것의 중요성이 더 높은지 확인하는 작업을 했다.
LIMA
standard supervised 학습을 하고 그 loss 로 응답이 미세조정된, 6500만 parameter의 LLaMa 언어모델
이 훈련된 LIMA 가 놀라운 성능을 보여줬다.
훈련 데이터(training data)에 있는 단지 몇안되는 예시들 통해서, 특정 응답 형식들을 따르는 법을 학습해서 놀라운 성능을 보여줬다. 이 훈련데이터는 ’여행 일정을 계획하는 것’에서부터 ’대체 역사를 추측하는 것’에 이르는 복잡한 질문들을 포함하고 있다.
통제된 사람들을 대상으로 한 연구에서 LIMA 로 부터나온 응답들은
- GPT-4 에 비해 case의 43% 에서 동등하거나 더 선호되는 것으로 나타났다.
- Bard 와 비교할 때는 58% 의 case 에서 동등하거나 더 선호됐고,
- DaVinci003에서는 65% 의 case 에서 동등하거나 더 선호됐다.
이 결과들은 다음 사실을 강력히 시사한다.
- LLM 의 거의 모든 지식들이 pretrainning 과정에서 학습(learn) 되고,
- model 들이 고품질의 결과를 생산하도록 가르치기 위해서는 오직 제한된 명령어 튜닝 데이터(limited instruction tuning data) 만 있으면 된다는 것
댓글 없음:
댓글 쓰기