인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] Google Gemini - 논문 요약

Suda_777 2024. 9. 11. 12:02

목차

    반응형

    논문 연도: 2023

    제미나이 논문 링크

     

    Gemini: A Family of Highly Capable Multimodal Models

    This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from comp

    arxiv.org

    0. abstract

    • '제미나이' 크기로는  '울트라(Ultra)', '프로(Pro)', '나노(Nano)' 가 있음
    • 'MMLU'에서 인간 전문가 수준의 성능을 달성한 최초의 모델. MMLU(Massive Multitask Language Understanding)는 대규모 다작업 언어 이해를 위한 벤치마크입니다. 

    1. Introduction

    • 멀티모달 모델 계열로 이미지, 오디오, 비디오, 텍스트 데이터를 함께 학습
    • 젬마이니 나노는 기기 내 배포를 목표로 하는 소형 모델 시리즈

    2. Model Architecture

    • 트랜스포머 디코더, TPU(Google’s Tensor Processing Units)에서 모델 최적화
    • 32k 컨텍스트 길이를 지원
    • 세가지 모델 사이즈
      • 울트라: 가장 뛰어난 모델, TPU에서 효율적인 작동
      • 프로: 비용/대기시간 측면에서 효율적
      • 나노: 기기 내에서 실행되도록 설계, 두가지 버전 있음(1.8B, 3.25B 파라미터), 4비트로 양자화
    • 입력  데이터: 텍스트, 이미지, 차트, 스크린샷, PDF, 비디오 
    • 다양한 입력 해상도를 처리할 수 있어 세밀한 이해가 필요한 작업에 더 많은 계산을 할당할 수 있다.
    • 유니버설 스피치 모델(USM) (Zhang et al., 2023) 기능에서 16kHz의 오디오 신호를 직접 처리할 수 있음

    3. Training Infrastructure

    • 훈련 장비:  TPUv5e 및 TPUv4 가속기를 사용, 가속기 가 적으면 기기가 자주 고장남
    • 클러스터 간 네트워크를 사용, 여러 데이터 센터에 있는 SuperPods를 결합. 이를 통해 슈퍼팟 내 모델 병렬성과 슈퍼팟 간 데이터 병렬성을 활용
    • '단일 컨트롤러' 프로그래밍 모델(The ‘single controller’ programming model of Jax)
      • 단일 프로세스가 전체 훈련 실행을 조율, 개발을 단순화
    • GSPMD 파티셔너
      • 훈련 단계 계산을 파티션
    • MegaScale XLA 컴파일러(XLA, 2019) 패스
      • 적절한 컬렉티브를 정적으로 예약하여 계산과 최대한 겹치게
    • 체크포인트 사용 안함
      • 젬마이니는 모델 상태의 중복 인메모리 사본을 사용
      • 예상치 못한 하드웨어 고장 시 손상되지 않은 모델 복제본에서 빠르게 복구
    • 침묵 데이터 손상, “Silent Data Corruption(SDC)
      • 결함 있는 하드웨어를 신속하게 감지하고 제거
      • 잘못된 계산을 분리하는 기술

    4. Training Dataset

    •  다국어 데이터셋
    • 웹 문서, 책, 코드
    • 이미지, 오디오, 비디오
    • SentencePiece 토크나이저(Kudo and Richardson, 2018)를 사용
    • 토큰 수
      • 가장 큰 모델:  Hoffmann et al. (2022)의 접근 방식 사용
      • 이외 작은모델 : 훨씬 더 많은 토큰으로 훈련
    • 모든 데이터셋에 대해 품질 필터를 적용
      • 휴리스틱 규칙과 모델 기반 분류기를 모두 사용
      • 해로운 콘텐츠를 제거하기 위해 안전 필터링
    • 훈련 말미에 도메인 관련 데이터의 비중을 늘림
    • 데이터 품질이 높은 성능 모델에 중요

     

    반응형