AI 인공지능/LLM
핫한 Llama, 알아보자! (3) Llama3 살펴보기 (feat. 사용기)
에하유
2024. 6. 4. 09:56
안녕하세요, AI 개발자 새내기 에하유 입니다.
제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.
피드백은 언제나 환영입니다❤️
오늘은 LLaMA3의 여러 오피셜 문서들을 읽어보며 정리한 내용을 공유하려합니다!
기본 정보
- 출시일 : 2024년 4월 18일
- 모델 사이즈 및 종류
Meta-Llama-3-8b Meta-Llama-3-8b-instruct Instruct fine-tuned version Meta-Llama-3-70b Meta-Llama-3-70b-instruct Instruct fine-tuned version
Llama 2 vs Llama3 비교
- 달라진점
Llama2 Llama3 GQA (grouped query attention) 34B, 70B 모델(큰 모델)만 적용 8B, 70B 모델 전체 적용 Tokenizer (Vocabulary size) 32,000 128,256 Context length 4,096 tokens 8,192 tokens Pre-trained token 2조 개 15조 개 이상 비영어 데이터 학습율 약 2% 5% 이상 (30개 이상 언어) 훈련 방법 - SFT(Supervised Micro-Tuning)
- rejection sampling
- PPO(Proximal Policy Optimization)- SFT(Supervised Micro-Tuning)
- rejection sampling
- PPO(Proximal Policy Optimization)
- DPO(Direct Policy Optimization)
- GQA (grouped query attention)
- Llama3의 추론 효율성을 목표로 GQA를 적용 했으며, 이를 통해 빠르고 효율적인 예측을 보장
- LLaMa2에서는 비교적 큰 34B, 70B 모델에서만 사용되던 GQA (grouped query attention)가 Llama3에서 파라미터가 작은 모델에도 적용
- Tokenizer (Vocabulary size)
- Llama3의 토큰화 효율성을 목표로 보다 효율적인 언어 인코딩을 제공
- Llama2에 비해 4배 증가한 128,256개의 새로운 토크나이저를 사용
- GQA & Tokenizer (Vocabulary size) 효과
- Llama2-7b와 Llama3-8b를 비교했을때 Llama3 1b 더 많은 매개변수를 가지고 있음에도 효과가 더 좋음
- GQA (grouped query attention)
- Benchmark 성능 비교
Llama3 vs Llama2 벤치마크 성능 비교
Llama 3 기타 특징
- 텍스트 품질 분류를 위해 Llama2를 사용하여 훈련 데이터를 생성함
- 각 모델을 훈련하는 데 필요한 총 GPU 시간 Llama-8B 130만시간(약 6일) , Llama-70B 640만 시간(약 27일)
- Llama2 보다 응답을 잘못 거부할 가능성(긍정적인 프롬프트에 대한 과잉 거부)을 낮추도록 개선함.
- 핵심가치 3가지 : 개방성(현재 사용 가능한 오픈소스 중 최고), 포용성(다국어, 멀티 모달), 유용성(요청에 정확하게 응답하도록)
Llama3 State-of-the-art performance
- Llama3-8B와 Llama 3 70B 모델 모두 HumanEval, MMLU, DROP 등의 벤치마크에서 더 높은 점수를 받음
Llama3-8B 모델은 비슷한 사이즈의 sLLM모델인 Gemma-7B, Mistral-7B 보다 전반적인 성능이 더 높음
Llama 3 - 70B - instruct 사용기 ( hugging face-chat 이용)
- 성능을 평가할 때 주로 생성, 정보 추출, 추론 이 3가지를 주로 평가합니다.
그래서, 뉴스기사 요약과 기사 내용을 바탕으로 시를 한편 지어달라고 요청하였습니다.
뉴스 요약은 손쉽게 생성해냅니다. 시 생성도 그럴듯하게 해냅니다. - 삼성 입사시험 문제의 수리 추론 문제를 내보았습니다.
영어로 대답하지만 풀이과정과 정답까지 정확하게 맞추었습니다. (프롬프팅을 통해 영어로 답변하지 않게 제어할 수 있습니다.)
+@
비교라하기엔 파라미터 수가 너무 차이나지만, gemma-1.1-7b 도 hugging chat 에서 지원하고 있어 똑같은 질문을 해보았습니다.
기사요약은 그럴듯해보이나, 선-후관계가 미묘하게 다르게 요약하였습니다. 2번째줄에 여학생들이 카드 결제 알림 후에 한씨가 신용카드를 회수한것인데 모델은 선후관계를 모호하게 요약해놨습니다.
시의 경우,,,, 시적허옹이 많이 포함된것같습니다.
똑같은 수리 추론문제도 풀지 못했습니다.