AI 인공지능/LLM

핫한 Llama, 알아보자! (1) Llama1 아키텍쳐 (feat.transformer)

에하유 2024. 5. 29. 13:21

안녕하세요, AI 개발자 새내기 에하유 입니다.

 

LLaMA3 출시 기념으로 LLama1 , 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다.

제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.

피드백은 언제나 환영입니다.

 

 

오늘은 LLamA1의 아키텍쳐를 간단하게 정리하고자 합니다.

 


 

 

#️⃣ LLama1는 “transformer” 아키텍쳐를 베이스로 합니다.

Llama Architecture

 

 

#️⃣ “transformer”에서 Architecture 차이는 3가지!

  transformer  LLama1
Pre-normalization batch Normalization RMS(Root Mean Square) Normalization
activation function 보통 ReLU SwiGLU
Embeddings absolute positional embeddings rotary positional embeddings
  • Normalization (정규화)
    • 라마 모델의 주요 변경 사항 중 하나인 정규화 단계, 2019년 "Root Mean Square Layer Normalization” 논문을 통해 소개된 정규화 방법이 적용 되었습니다.
    • 레이어 정규화의 re-centering(평균에서 빼기)과 re-scaling(표준편차로 나누기)방법 중 re-scaling 속성이 Layer Normalization의 성공 이유라고 소개합니다.
  • activation function
    • feed forwad 계층에서 ReLU 활성화 대신 SwiGLU 활성화를 사용합니다.
  • Embeddings
    • rotary positional embeddings : 인코딩 프로세스에 회전 작업을 도입하여 모델이 미리 계산된 정적 위치 인코딩 벡터 대신 훈련 중에 동적인 위치 표현을 학습할 수 있게 합니다.
    • positional embeddings : 어순은 언어를 이해하는데 중요한 역할을 하기 때문에, 어순 처리가 필요하다. 입력값으로 주어질 단어 vector안에 positional Encoding 정보를 포함시키고자 하는것.