목차
반응형
논문 연도: 2023
제미나이 논문 링크
0. abstract
- '제미나이' 크기로는 '울트라(Ultra)', '프로(Pro)', '나노(Nano)' 가 있음
- 'MMLU'에서 인간 전문가 수준의 성능을 달성한 최초의 모델. MMLU(Massive Multitask Language Understanding)는 대규모 다작업 언어 이해를 위한 벤치마크입니다.
1. Introduction
- 멀티모달 모델 계열로 이미지, 오디오, 비디오, 텍스트 데이터를 함께 학습
- 젬마이니 나노는 기기 내 배포를 목표로 하는 소형 모델 시리즈
2. Model Architecture
- 트랜스포머 디코더, TPU(Google’s Tensor Processing Units)에서 모델 최적화
- 32k 컨텍스트 길이를 지원
- 세가지 모델 사이즈
- 울트라: 가장 뛰어난 모델, TPU에서 효율적인 작동
- 프로: 비용/대기시간 측면에서 효율적
- 나노: 기기 내에서 실행되도록 설계, 두가지 버전 있음(1.8B, 3.25B 파라미터), 4비트로 양자화
- 입력 데이터: 텍스트, 이미지, 차트, 스크린샷, PDF, 비디오
- 다양한 입력 해상도를 처리할 수 있어 세밀한 이해가 필요한 작업에 더 많은 계산을 할당할 수 있다.
- 유니버설 스피치 모델(USM) (Zhang et al., 2023) 기능에서 16kHz의 오디오 신호를 직접 처리할 수 있음
3. Training Infrastructure
- 훈련 장비: TPUv5e 및 TPUv4 가속기를 사용, 가속기 가 적으면 기기가 자주 고장남
- 클러스터 간 네트워크를 사용, 여러 데이터 센터에 있는 SuperPods를 결합. 이를 통해 슈퍼팟 내 모델 병렬성과 슈퍼팟 간 데이터 병렬성을 활용
- '단일 컨트롤러' 프로그래밍 모델(The ‘single controller’ programming model of Jax)
- 단일 프로세스가 전체 훈련 실행을 조율, 개발을 단순화
- GSPMD 파티셔너
- 훈련 단계 계산을 파티션
- MegaScale XLA 컴파일러(XLA, 2019) 패스
- 적절한 컬렉티브를 정적으로 예약하여 계산과 최대한 겹치게
- 체크포인트 사용 안함
- 젬마이니는 모델 상태의 중복 인메모리 사본을 사용
- 예상치 못한 하드웨어 고장 시 손상되지 않은 모델 복제본에서 빠르게 복구
- 침묵 데이터 손상, “Silent Data Corruption(SDC)
- 결함 있는 하드웨어를 신속하게 감지하고 제거
- 잘못된 계산을 분리하는 기술
4. Training Dataset
- 다국어 데이터셋
- 웹 문서, 책, 코드
- 이미지, 오디오, 비디오
- SentencePiece 토크나이저(Kudo and Richardson, 2018)를 사용
- 토큰 수
- 가장 큰 모델: Hoffmann et al. (2022)의 접근 방식 사용
- 이외 작은모델 : 훨씬 더 많은 토큰으로 훈련
- 모든 데이터셋에 대해 품질 필터를 적용
- 휴리스틱 규칙과 모델 기반 분류기를 모두 사용
- 해로운 콘텐츠를 제거하기 위해 안전 필터링
- 훈련 말미에 도메인 관련 데이터의 비중을 늘림
- 데이터 품질이 높은 성능 모델에 중요
반응형
'자연어처리 > LLM 모델' 카테고리의 다른 글
[LLM] Llama2 - 논문 요약 (2) (3) | 2024.09.11 |
---|---|
[LLM] Llama2 모델 (1) (4) | 2024.09.11 |
[LLM] Llama1 - 논문 요약 (5) | 2024.09.11 |
LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기 (3) | 2023.10.11 |
LLM이란? 그리고 공부하려면 (2) | 2023.10.04 |