핫한 Llama, 알아보자! (1) Llama1 아키텍쳐 (feat.transformer)

AI 인공지능/LLM

에하유 2024. 5. 29. 13:21

안녕하세요, AI 개발자 새내기 에하유 입니다.

LLaMA3 출시 기념으로 LLama1 , 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다.

제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.

피드백은 언제나 환영입니다.

오늘은 LLamA1의 아키텍쳐를 간단하게 정리하고자 합니다.

#️⃣ LLama1는 “transformer” 아키텍쳐를 베이스로 합니다.

#️⃣ “transformer”에서 Architecture 차이는 3가지!

	transformer	LLama1
Pre-normalization	batch Normalization	RMS(Root Mean Square) Normalization
activation function	보통 ReLU	SwiGLU
Embeddings	absolute positional embeddings	rotary positional embeddings

Normalization (정규화)
- 라마 모델의 주요 변경 사항 중 하나인 정규화 단계, 2019년 "Root Mean Square Layer Normalization” 논문을 통해 소개된 정규화 방법이 적용 되었습니다.
- 레이어 정규화의 re-centering(평균에서 빼기)과 re-scaling(표준편차로 나누기)방법 중 re-scaling 속성이 Layer Normalization의 성공 이유라고 소개합니다.
activation function
- feed forwad 계층에서 ReLU 활성화 대신 SwiGLU 활성화를 사용합니다.
Embeddings
- rotary positional embeddings : 인코딩 프로세스에 회전 작업을 도입하여 모델이 미리 계산된 정적 위치 인코딩 벡터 대신 훈련 중에 동적인 위치 표현을 학습할 수 있게 합니다.
- positional embeddings : 어순은 언어를 이해하는데 중요한 역할을 하기 때문에, 어순 처리가 필요하다. 입력값으로 주어질 단어 vector안에 positional Encoding 정보를 포함시키고자 하는것.