
안녕하세요, AI 개발자 새내기 에하유 입니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️ 오늘은 Gemma의 여러 오피셜 문서, 논문을 읽어보며 정리한 내용을 공유하려합니다! 모델 정보출시일 : 2024년 2월 21일 출시‘보석’을 뜻하는 ‘gemma’에서 영감받은 이름질의 응답, 요약, 추론 등 다양한 텍스트 생성 태스크에 적합함작은 크기의 모델로 노트북, 데스크톱과 같은 제한된 환경에 배포 가능gemini 모델을 만들기 위해 사용했던 연구와 기술들을 입힌 경량 오픈 소스 모델Gemma 출시 한달 뒤 Gemma1.1-7b-it, Gemma1.1-2b-it 출시함코딩 기능, factuality, instruction follo..

안녕하세요, AI 개발자 새내기 에하유 입니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️ 오늘은 LLaMA3의 여러 오피셜 문서들을 읽어보며 정리한 내용을 공유하려합니다! 기본 정보출시일 : 2024년 4월 18일모델 사이즈 및 종류Meta-Llama-3-8b Meta-Llama-3-8b-instruct Instruct fine-tuned version Meta-Llama-3-70b Meta-Llama-3-70b-instruct Instruct fine-tuned version Llama 2 vs Llama3 비교달라진점 Llama2Llama3 GQA (grouped query attention) 34B, 70B 모델(큰 ..

안녕하세요, AI 개발자 새내기 에하유 입니다.LLaMA3 출시 기념으로 LLaMA1, 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다. 제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다❤️ 오늘은 LLaMA2 논문과 추가적으로 Llama1과 아키텍쳐 비교를 간단하게 리뷰하고자 합니다. 목차0️⃣ LLaMA 1 VS LLaMA 2 아키텍쳐차이1️⃣ [논문] LLaMA2 Overall Pipeline2️⃣ [논문] SFT DATASET 상세 구축 과정 0️⃣ LLaMA 1 VS LLaMA 2 아키텍쳐 LLaMA 1 LLaMA 2 Context Length2,04840,96 AttentionMulti Query Attentio..

안녕하세요, AI 개발자 새내기 에하유 입니다. LLaMA3 출시 기념으로 LLama1 , 2 부터 다시 복습하고 기초부터 다지는 시간을 갖고자 합니다.제가 공부하고 이해한 내용을 정리하는 목적으로, 글을 작성해 다소 부족 할 수 있습니다.피드백은 언제나 환영입니다. 오늘은 LLamA1의 아키텍쳐를 간단하게 정리하고자 합니다. #️⃣ LLama1는 “transformer” 아키텍쳐를 베이스로 합니다. #️⃣ “transformer”에서 Architecture 차이는 3가지! transformer LLama1Pre-normalizationbatch NormalizationRMS(Root Mean Square) Normalizationactivation function보통 ReLUSwiGLUEm..