AI 인공지능/LLM

핫한 Llama, 알아보자! (3) Llama3 살펴보기 (feat. 사용기)

에하유 2024. 6. 4. 09:56

안녕하세요, AI 개발자 새내기 에하유 입니다.

제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.

피드백은 언제나 환영입니다❤️

 

 

오늘은 LLaMA3의 여러 오피셜 문서들을 읽어보며 정리한 내용을 공유하려합니다!

 


 

기본 정보

 

Llama 2 vs Llama3  비교

  • 달라진점
      Llama2 Llama3
    GQA (grouped query attention) 34B, 70B 모델(큰 모델)만 적용 8B, 70B 모델 전체 적용
    Tokenizer (Vocabulary size) 32,000 128,256
    Context length 4,096 tokens 8,192 tokens
    Pre-trained token 2조 개 15조 개 이상
    비영어 데이터 학습율 약 2% 5% 이상 (30개 이상 언어)
    훈련 방법 - SFT(Supervised Micro-Tuning)
    - rejection sampling
    - PPO(Proximal Policy Optimization)
    - SFT(Supervised Micro-Tuning)
    - rejection sampling
    - PPO(Proximal Policy Optimization)
    - DPO(Direct Policy Optimization)

    • GQA (grouped query attention)
      • Llama3의 추론 효율성을 목표로 GQA를 적용 했으며, 이를 통해 빠르고 효율적인 예측을 보장
      • LLaMa2에서는 비교적 큰 34B, 70B 모델에서만 사용되던 GQA (grouped query attention)가 Llama3에서 파라미터가 작은 모델에도 적용
    • Tokenizer (Vocabulary size)
      • Llama3의 토큰화 효율성을 목표로 보다 효율적인 언어 인코딩을 제공
      • Llama2에 비해 4배 증가한 128,256개의 새로운 토크나이저를 사용
    • GQA & Tokenizer (Vocabulary size) 효과
      • Llama2-7b와 Llama3-8b를 비교했을때 Llama3 1b 더 많은 매개변수를 가지고 있음에도 효과가 더 좋음
  • Benchmark 성능 비교
    Llama3 vs Llama2 벤치마크 성능 비교


Llama 3 기타 특징

  • 텍스트 품질 분류를 위해 Llama2를 사용하여 훈련 데이터를 생성함
  • 각 모델을 훈련하는 데 필요한 총 GPU 시간 Llama-8B 130만시간(약 6일) , Llama-70B 640만 시간(약 27일)
  • Llama2 보다 응답을 잘못 거부할 가능성(긍정적인 프롬프트에 대한 과잉 거부)을 낮추도록 개선함.
  • 핵심가치 3가지 : 개방성(현재 사용 가능한 오픈소스 중 최고), 포용성(다국어, 멀티 모달), 유용성(요청에 정확하게 응답하도록)

 

Llama3 State-of-the-art performance

  • Llama3-8B와 Llama 3 70B 모델 모두 HumanEval, MMLU, DROP 등의 벤치마크에서 더 높은 점수를 받음

Llama3-8B 모델은 비슷한 사이즈의 sLLM모델인 Gemma-7B, Mistral-7B 보다 전반적인 성능이 더 높음

Llama 3 - 70B - instruct 사용기 ( hugging face-chat 이용)

  • 성능을 평가할 때 주로 생성, 정보 추출, 추론 이 3가지를 주로 평가합니다.
    그래서, 뉴스기사 요약과 기사 내용을 바탕으로 시를 한편 지어달라고 요청하였습니다.

    뉴스 요약은 손쉽게 생성해냅니다. 시 생성도 그럴듯하게 해냅니다.

  • 삼성 입사시험 문제의 수리 추론 문제를 내보았습니다.

    영어로 대답하지만 풀이과정과 정답까지 정확하게 맞추었습니다. (프롬프팅을 통해 영어로 답변하지 않게 제어할 수 있습니다.)

 

 

+@
비교라하기엔 파라미터 수가 너무 차이나지만, gemma-1.1-7b 도 hugging chat 에서 지원하고 있어 똑같은 질문을 해보았습니다.

기사요약은 그럴듯해보이나, 선-후관계가 미묘하게 다르게 요약하였습니다. 2번째줄에 여학생들이 카드 결제 알림 후에 한씨가 신용카드를 회수한것인데 모델은 선후관계를 모호하게 요약해놨습니다.

시의 경우,,,, 시적허옹이 많이 포함된것같습니다.

똑같은 수리 추론문제도 풀지 못했습니다.