AI 하는 유정
article thumbnail
Gemma 알아보자! (1) 모델 정보
AI 인공지능/LLM 2024. 6. 7. 08:38

안녕하세요, AI 개발자 새내기 에하유 입니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️  오늘은 Gemma의 여러 오피셜 문서, 논문을 읽어보며 정리한 내용을 공유하려합니다!  모델 정보출시일 : 2024년 2월 21일 출시‘보석’을 뜻하는 ‘gemma’에서 영감받은 이름질의 응답, 요약, 추론 등 다양한 텍스트 생성 태스크에 적합함작은 크기의 모델로 노트북, 데스크톱과 같은 제한된 환경에 배포 가능gemini 모델을 만들기 위해 사용했던 연구와 기술들을 입힌 경량 오픈 소스 모델Gemma 출시 한달 뒤 Gemma1.1-7b-it, Gemma1.1-2b-it 출시함코딩 기능, factuality, instruction follo..

article thumbnail
핫한 Llama, 알아보자! (3) Llama3 살펴보기 (feat. 사용기)
AI 인공지능/LLM 2024. 6. 4. 09:56

안녕하세요, AI 개발자 새내기 에하유 입니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️  오늘은 LLaMA3의 여러 오피셜 문서들을 읽어보며 정리한 내용을 공유하려합니다!  기본 정보출시일 : 2024년 4월 18일모델 사이즈 및 종류Meta-Llama-3-8b Meta-Llama-3-8b-instruct Instruct fine-tuned version Meta-Llama-3-70b Meta-Llama-3-70b-instruct Instruct fine-tuned version  Llama 2 vs Llama3  비교달라진점 Llama2Llama3 GQA (grouped query attention) 34B, 70B 모델(큰 ..

article thumbnail
핫한 Llama, 알아보자! (2) Llama2 논문 리뷰 ( Llama2 open foundation and fine-tuned chat models)
AI 인공지능/LLM 2024. 6. 3. 09:53

안녕하세요, AI 개발자 새내기 에하유 입니다.LLaMA3 출시 기념으로 LLaMA1, 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다. 제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️  오늘은 LLaMA2 논문과 추가적으로 Llama1과 아키텍쳐 비교를 간단하게 리뷰하고자 합니다. 목차0️⃣ LLaMA 1 VS LLaMA 2 아키텍쳐차이1️⃣ [논문] LLaMA2 Overall Pipeline2️⃣ [논문] SFT DATASET 상세 구축 과정 0️⃣ LLaMA 1 VS LLaMA 2 아키텍쳐   LLaMA 1 LLaMA 2 Context Length2,04840,96 AttentionMulti Query Attentio..

article thumbnail
핫한 Llama, 알아보자! (1) Llama1 아키텍쳐 (feat.transformer)
AI 인공지능/LLM 2024. 5. 29. 13:21

안녕하세요, AI 개발자 새내기 에하유 입니다. LLaMA3 출시 기념으로 LLama1 , 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다.  오늘은 LLamA1의 아키텍쳐를 간단하게 정리하고자 합니다.   #️⃣ LLama1는 “transformer” 아키텍쳐를 베이스로 합니다.  #️⃣ “transformer”에서 Architecture 차이는 3가지!  transformer  LLama1Pre-normalizationbatch NormalizationRMS(Root Mean Square) Normalizationactivation function보통 ReLUSwiGLUEm..