[컴] LLM 의 학습에는 pretraining 이 중요하다.

대규모 언어 모델

LLM 의 학습에는 pretraining 이 중요하다.

다음 글은 위의 내용을 정리 한 것이다.

Large Language Model(LLM) 들은 2가지 stage 를 거쳐서 학습하게 된다.

  1. general-purpose representations(범용 표현)을 배우기 위한, raw text 로 하는 ‘unsupervised pretraining’.
  2. ‘대규모 명령어 튜닝(large scale instruction tuning)’ 과 ‘강화학습(reinforcement learning)’ 을 통해 end tasks 와 사용자 선호도에 더 잘 일치하게 한다.(to better align)

‘강화학습’ 또는 ‘인간선호도에 대한 모델링’ 없이 LIMA 를 훈련해서, 이 2개의 step 중 어느것의 중요성이 더 높은지 확인하는 작업을 했다.

LIMA

standard supervised 학습을 하고 그 loss 로 응답이 미세조정된, 6500만 parameter의 LLaMa 언어모델

이 훈련된 LIMA 가 놀라운 성능을 보여줬다.

훈련 데이터(training data)에 있는 단지 몇안되는 예시들 통해서, 특정 응답 형식들을 따르는 법을 학습해서 놀라운 성능을 보여줬다. 이 훈련데이터는 ’여행 일정을 계획하는 것’에서부터 ’대체 역사를 추측하는 것’에 이르는 복잡한 질문들을 포함하고 있다.

통제된 사람들을 대상으로 한 연구에서 LIMA 로 부터나온 응답들은

  • GPT-4 에 비해 case의 43% 에서 동등하거나 더 선호되는 것으로 나타났다.
  • Bard 와 비교할 때는 58% 의 case 에서 동등하거나 더 선호됐고,
  • DaVinci003에서는 65% 의 case 에서 동등하거나 더 선호됐다.

이 결과들은 다음 사실을 강력히 시사한다.

  • LLM 의 거의 모든 지식들이 pretrainning 과정에서 학습(learn) 되고,
  • model 들이 고품질의 결과를 생산하도록 가르치기 위해서는 오직 제한된 명령어 튜닝 데이터(limited instruction tuning data) 만 있으면 된다는 것

댓글 없음:

댓글 쓰기