인공지능 개발자 수다(유튜브 바로가기) 자세히보기

자연어처리/LLM 모델

[LLM] EXAONE 3.5 논문 리뷰

Suda_777 2025. 3. 10. 14:31
반응형

 

 

 

LG 프로젝트를 하다 보니, 엑사원 모델을 사용하고 있길래

논문을 읽어보기로 했다.

현 시점에서 한국어를 기준으로는 상위권에 속하는 모델이다.

필자도 이것저것 질문해 봤는데 성능이 괜찮았던 경험이 있다.

 

논문 링크

 

EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

This technical report introduces the EXAONE 3.5 instruction-tuned language models, developed and released by LG AI Research. The EXAONE 3.5 language models are offered in three configurations: 32B, 7.8B, and 2.4B. These models feature several standout capa

arxiv.org

 

huggingface 링크

 

LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct · Hugging Face

EXAONE-3.5-2.4B-Instruct Introduction We introduce EXAONE 3.5, a collection of instruction-tuned bilingual (English and Korean) generative models ranging from 2.4B to 32B parameters, developed and released by LG AI Research. EXAONE 3.5 language models incl

huggingface.co

 

 

0. Abstract

EXAONE 3.5 모델은 LG AI Research에서 개발한 대형 언어 모델

제공되는 모델 사이즈 : 32B, 7.8B, 2.4B

연구적인 목적으로는 모델을 오픈하며,

상업적인 목적으로 이용할 때에는 LG AI Research로 연락을 달라고 한다.

 


1. Introduction

EXAONE 3.0은 산업에서 성공적으로 출시되었다.

학계 및 산업계에서 다양한 피드백을 받은 내용을 EXAONE 3.5 개발에 반영했다.

  • 저사양 GPU에서도 훈련 및 배포 가능
  • 비용 효율, 성능 향상
  • long-context processing 가능

최대 32K 토큰의 긴 문맥을 처리 가능함.

 


2. Model Training

2.1. Model Configurations (모델 구성)

  • Transformer 에서 디코더만 사용한 모델 (decoder-only Transformer architecture)
  • 3.0 에서 4096 tokens >>> 3.5에서 32768 tokens
  • 32B, 7.8B, 2.4B 모두 같은 단어 사전 사용
  • 50% 는 영어, 50%는 한국어

 


2.2. Pre-training

pre-training은 2개의 스테이지로 구성함

  • 1단계 pre-training : 대규모 훈련 코퍼스 기반, 일반적인 도메인에서 성능 향상
  • 2단계 pre-training : 평가를 통해 강화해야 할 도메인에 대한 데이터를 학습, 긴 문맥 이해 능력 향상

학습 토큰

 

 

2.2.1. Context Length Extension (컨택스트 길이 확장)

  • 모델이 긴 입력 텍스트를 이해하고 처리하는 능력
  • replay-based method : Catastrophic Forgetting 완화 (첫번째 pre-train 단계에서 학습한 내용을 잊어버리는 현상 완화), 1단계에서 사용한 데이터를 재사용
  • 청크(Chunk) 분할 : 1단계에서는 청크를 분할하고 학습, 2단계에서는 청크를 분할하지 않고 학습하여 컨텍스트의 길이를 확장함

 

2.2.2. Decontamination (오염제거)

테스트 데이터에 학습 데이터가 들어가 있는 문제가 있음

아래 과정대로 데이터를 전처리함

  • 정규화 : 숫자와 알파벳을 제외한 다른 문자열은 모두 제거한다. (특수문자나 다른 외국어같은거)
  • 부분 문자열 추출 : sliding window 방식(window size = 50, stride 1) 으로 고유한 문자열을 추출함
  • 샘플로 검사 : 10개의 학습 데이터 샘플을 추출해 테스트 데이터에 있는지 확인

 

2.2.3 Training Cost

적은 컴퓨팅 비용으로 학습했다.

 


2.3. Post-training

이 단계에서는 산업 관련 기능을 강화한다.

그리고 사람의 선호에 맞게 모델을 학습한다. (SFT, Supervised Fine-tuning)

 

2.3.1 Supervised Fine-tuning

새로운 지시사항에 더잘 수행하도록,  지시 - 대답 쌍의 데이터셋이 필요.

핵심 지식 8백만 개의 웹 데이터 사용

 

2.3.2. Preference Optimization (선호도 최적화)

  • 직접 정렬 알고리즘(Direct Alignment Algorithms, DAAs)을 사용 ( 추가 설명 : 인간의 선호도에 맞춰 조정하는 데 사용되는 알고리즘이다. 유해하거나 부적절한 콘텐츠를 생성하는 것을 방지하고, 윤리적이고 안전한 AI 시스템을 구축, 선호도 데이터를 사용하여 모델을 훈련 )
  • DPO(Direct Preference Optimization) : 참조 모델 없이 직접 선호도를 최적화
  • SimPO : 참조 없는 보상으로 간단하게 선호도를 최적화
  • 합성 데이터(preference data)와 미리 수집된 데이터를 사용
  • 프롬프트 x에 대해 여러 모델에서 N 개의 응답을 샘플링하고
  • 보상 모델을 사용하여 가장 좋은 응답 yw과 가장 나쁜 응답 yl을 선택하여 선호도 데이터 세트 \( x, y_w, y_l \)를 만든다
  • 추가적인 보상 모델을 사용, 두 보상 모델의 순위에서 일치율을 계산하고, 특정 임계값 미만의 데이터는 필터링
  • SFT 모델에서 초기화된 모델 M0 를 사용하여 DAA를 통해 모델 M1M2 를 순차적으로 훈련
  • 파이프라인 형식으로 진행하면, DAA에서 발생할 수 있는 과최적화를 막아준다.

 


2.4. Data Compliance (데이터 규정 준수)

저작권 침해, 지적 재산권 침해, 개인 정보 보호 위반 등 다양한 법적 문제를 대비해

사용한 데이터를 잘 확인했다.

 


3. Evaluation

생략 (성능 크게 향상됨)

 

4 Responsible AI

생략

 

5. Limitations

  • 부적절한 답변 생성
  • 편향된 응답
  • 문법 오류
  • 최신 정보 부족

6 Deployment

생략 (라이센스 관련 내용)

 

7. Conclusion

성과

  • 다양한 지시에 대한 이해
  • 긴 문맥을 이해
  • 다양한 모델 크기
  • 성능 개선

 

향후 계획

  • 피드백을 계속 받음
  • 상업적 문의 받음

 


 

상업적으로 사용하기 위해서는

GPU 연산을 마구 사용할 수 없기에

적당한 사이즈의 언어 모델이 필요하다는 것을

논문을 통해 느꼈다.

 

또한 수백만건의 데이터를 학습했다고 나와 있는데

가정용 일반 GPU로는

몇건 학습하는 것도 힘든데

이게 어느정도 규모인지는 겪어봐야 알 수 있을 것 같다.

 

논문이 학습과정을 파이프라인의 요소별로

깔끔하게 정리하고 있어

도움이 많이 되었다.

 

 

 

반응형