핫한 Llama, 알아보자! (3) Llama3 살펴보기 (feat. 사용기)

AI 인공지능/LLM

에하유 2024. 6. 4. 09:56

안녕하세요, AI 개발자 새내기 에하유 입니다.

제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.

피드백은 언제나 환영입니다❤️

오늘은 LLaMA3의 여러 오피셜 문서들을 읽어보며 정리한 내용을 공유하려합니다!

달라진점

	Llama2	Llama3
GQA (grouped query attention)	34B, 70B 모델(큰 모델)만 적용	8B, 70B 모델 전체 적용
Tokenizer (Vocabulary size)	32,000	128,256
Context length	4,096 tokens	8,192 tokens
Pre-trained token	2조 개	15조 개 이상
비영어 데이터 학습율	약 2%	5% 이상 (30개 이상 언어)
훈련 방법	- SFT(Supervised Micro-Tuning) - rejection sampling - PPO(Proximal Policy Optimization)	- SFT(Supervised Micro-Tuning) - rejection sampling - PPO(Proximal Policy Optimization) - DPO(Direct Policy Optimization)

GQA (grouped query attention)
- Llama3의 추론 효율성을 목표로 GQA를 적용 했으며, 이를 통해 빠르고 효율적인 예측을 보장
- LLaMa2에서는 비교적 큰 34B, 70B 모델에서만 사용되던 GQA (grouped query attention)가 Llama3에서 파라미터가 작은 모델에도 적용
Tokenizer (Vocabulary size)
- Llama3의 토큰화 효율성을 목표로 보다 효율적인 언어 인코딩을 제공
- Llama2에 비해 4배 증가한 128,256개의 새로운 토크나이저를 사용
GQA & Tokenizer (Vocabulary size) 효과
- Llama2-7b와 Llama3-8b를 비교했을때 Llama3 1b 더 많은 매개변수를 가지고 있음에도 효과가 더 좋음

텍스트 품질 분류를 위해 Llama2를 사용하여 훈련 데이터를 생성함
각 모델을 훈련하는 데 필요한 총 GPU 시간 Llama-8B 130만시간(약 6일) , Llama-70B 640만 시간(약 27일)
Llama2 보다 응답을 잘못 거부할 가능성(긍정적인 프롬프트에 대한 과잉 거부)을 낮추도록 개선함.
핵심가치 3가지 : 개방성(현재 사용 가능한 오픈소스 중 최고), 포용성(다국어, 멀티 모달), 유용성(요청에 정확하게 응답하도록)

Llama3-8B 모델은 비슷한 사이즈의 sLLM모델인 Gemma-7B, Mistral-7B 보다 전반적인 성능이 더 높음

성능을 평가할 때 주로 생성, 정보 추출, 추론 이 3가지를 주로 평가합니다.
그래서, 뉴스기사 요약과 기사 내용을 바탕으로 시를 한편 지어달라고 요청하였습니다.

뉴스 요약은 손쉽게 생성해냅니다. 시 생성도 그럴듯하게 해냅니다.
삼성 입사시험 문제의 수리 추론 문제를 내보았습니다.

영어로 대답하지만 풀이과정과 정답까지 정확하게 맞추었습니다. (프롬프팅을 통해 영어로 답변하지 않게 제어할 수 있습니다.)

+@
비교라하기엔 파라미터 수가 너무 차이나지만, gemma-1.1-7b 도 hugging chat 에서 지원하고 있어 똑같은 질문을 해보았습니다.

기사요약은 그럴듯해보이나, 선-후관계가 미묘하게 다르게 요약하였습니다. 2번째줄에 여학생들이 카드 결제 알림 후에 한씨가 신용카드를 회수한것인데 모델은 선후관계를 모호하게 요약해놨습니다.

시의 경우,,,, 시적허옹이 많이 포함된것같습니다.

똑같은 수리 추론문제도 풀지 못했습니다.