인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

전체 글 93

LLM공부를 위해 Hugging Face 데이터셋 뒤져본 후기

1. 데이터셋 뭐가 있을까?huggingface에서 데이터셋을 불러오는 방법이다. 1.1. 먼저 huggingface의 datasets을 설치한다.!pip install datasets1.2. 다음으로 다운받을 수 있는 데이터셋의 리트스를 확인해 봅시다.from datasets import list_datasetsdatasets_list = list_datasets()print('데이터의 개수:', len(datasets_list))print(datasets_list)69289데이터셋의 개수를 확인해보면 엄청 방대하다는 것을 알 수 있다.  그렇다면 어떠한 데이터들을 사용하는 것이 좋을까..?1.3. LLM에서 사용한 여러 데이터셋wikitext 설명: 'wikitext' 시리즈는 위키백과에서 추출한 데..

LLM이란? 그리고 공부하려면

1. LLM 개요Large Language Model(LLM)은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 대규모의 언어 모델을 의미합니다. 이 모델들은 인간의 언어를 이해하고 생성하는 능력을 가지고 있으며, 그 규모와 복잡성 때문에 '대형'이라는 수식어가 붙습니다. LLM은 일반적으로 심층 신경망(Deep Neural Network, DNN) 기반으로 구축되며, 수억 혹은 수조 개의 파라미터를 가질 수 있습니다. 이런 대규모의 모델들은 매우 크고 다양한 데이터셋에서 학습됩니다. 예를 들면, 인터넷에서 크롤링한 텍스트 데이터나 위키피디아 같은 공개 텍스트 데이터를 활용합니다.LLM이 학습하는 방식 중 하나는 "transformer" 아키텍처와 "self-a..

[NLP] 토크나이저 (Tokenizer)

1. 토크나이저란 토크나이저는 텍스트를 단어, 서브 단어, 문장 부호 등의 토큰으로 나누는 작업을 수행 텍스트 전처리의 핵심 과정 2. 토크나이저의 종류 2.1. 공백 기반 토크나이저(Whitespace Tokenizer) 텍스트를 공백으로 구분하여 토크나이징하는 가장 간단한 방법입니다. 이 방법은 영어와 같은 공백으로 단어가 구분되는 언어에서 잘 작동한다. 중국어나 한국어와 같이 공백이 없거나 연결되어 있는 경우에는 적합하지 않습니다. 2.2. 기본 정규식 토크나이저(Regex Tokenizer) 정규식을 사용하여 텍스트를 분할하는 방식입니다. 사용자가 원하는 기준에 따라 토크나이징할 수 있으며, 공백 외에도 문장 부호 등 다른 문자를 기준으로 텍스트를 분할할 수 있습니다. 2.3. BPE(Byte P..

자연어처리 2023.07.07

[시계열] ARIMA 모델(Autoregressive Integrated Moving Average)

1. 소개 소개 시계열 데이터 분석에 사용하는 통계적 예측 모델 사용 분야 시계열 데이터의 패턴을 만드는 계절성, 추세를 학습하는데 효과적 경제 분석, 판매 예측, 에너지 수요 예측, 기후 및 기상분야 등에 사용 2. 수식 2.1. AR(p) $$ X_t = c + \phi_1X_{t-1} + \phi_2X_{t-2} + ... + \phi_pX_{t-p} + \varepsilon_t $$ 2.2. MA(q) $$ X_t = c + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} $$ 2.3. I(d) $$ \Delta^d X_t = (1 - B)^d X_t = X_..

통계 2023.06.21

[시계열] ARMA 모델 (Autoregressive Moving Average)

0. 이전 글 소개 AR모델 설명 [시계열] AR 모델(Autoregressive, 자기회귀) 1. 소개 (Autoregressive) - 설명: 시계열 데이터를 모델링하는 데 사용되는 통계적인 방법 - 가정: AR 모델은 현재 시점의 데이터가 이전 시점의 데이터에 의존한다는 가정에 기반하여 작동 - AR(p)에서 databoom.tistory.com MA모델 설명 [시계열] MA 모델(이동평균, Moving Average) MA(이동평균, Moving Average) 1. 소개 설명 시계열 데이터를 모델링하는 데 사용되는 통계적인 방법 현재 시점의 데이터를 이전 시점의 잔차와 계수의 조합으로 예측 가정: 현재 시점의 데이터가 이 databoom.tistory.com 1. 소개 (Autoregressiv..

통계 2023.06.20

[시계열] SARIMA 모델(Seasonal AutoRegressive Integrated Moving Average)

1. 소개 소개 시계열 데이터의 계절성을 처리하기 위해 만든 모델 ARIMA 모델을 확장한 모델 사용 분야 계절적 추세와 패턴이 있는 시계열 데이터 분석이 가능하므로, 비즈니스와 경제 분야에서 많이 사용함 2. 수식 2.1. AR(p) 구성 요소 $$ X_t = c + \phi_1X_{t-1} + \phi_2X_{t-2} + ... + \phi_pX_{t-p} + \varepsilon_t $$ 2.2. I(d) 구성 요소 (차분) $$ \Delta^d X_t = (1 - B)^d X_t = X_t - X_{t-d} = \varepsilon_t $$ 2.3. MA(q) 구성 요소 $$ X_t = c + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varep..

통계 2023.06.20

[시계열] MA 모델(이동평균, Moving Average)

MA(이동평균, Moving Average) 1. 소개 설명 시계열 데이터를 모델링하는 데 사용되는 통계적인 방법 현재 시점의 데이터를 이전 시점의 잔차와 계수의 조합으로 예측 가정: 현재 시점의 데이터가 이전 시점의 잔차(실제 값과 예측 값의 차이)에 영향을 받는다고 가정 MA(q)에서 q는 차수를 나타냄 사용 분야: 시계열 데이터의 예측, 변동성 분석, 추세 분석 등에 활용 2. 수식 X_t는 현재 시점(t)의 값입니다. μ는 평균값으로, 모델의 기댓값을 나타냅니다. ε_t는 백색 잡음(white noise)으로, 모델에서 설명하지 못하는 불규칙한 요소를 나타냅니다. θ_1, θ_2, ..., θ_q는 각각 1부터 q까지의 시차(lag)에 대한 계수(coefficient)입니다. 이는 이전 시점의 잔..

통계 2023.06.13

[시계열] AR 모델(Autoregressive, 자기회귀)

1. 소개 (Autoregressive) - 설명: 시계열 데이터를 모델링하는 데 사용되는 통계적인 방법 - 가정: AR 모델은 현재 시점의 데이터가 이전 시점의 데이터에 의존한다는 가정에 기반하여 작동 - AR(p)에서 p는 차수를 나타냄 - 사용 분야: 시계열 데이터의 예측, 변동성 분석, 추세 분석 등에 활용 2. 수식 c는 상수 항 φ_1, φ_2, ..., φ_p는 각각 1부터 p까지의 시차(lag)에 대한 계수(coefficient) ε_t는 백색 잡음(white noise) X_{t-1}, X_{t-2}, ..., X_{t-p}는 각각 t-1, t-2, ..., t-p 시점의 데이터 $$ X_t = c + \phi_1 * X_{t-1} + \phi_2 * X_{t-2} + ... + \phi..

통계 2023.06.13

데이터 스케일링 (Data Scaling)

구구절절 설명을 늘어놓는 것 보다는 간단하게 수식만 정리하는 것이, 가장 명확한 설명이 될 수 있겠죠^^? 1. Standard Scaler $$ z = \frac{x - \mu}{\sigma} $$ 2. MinMax Scaler $$ z = \frac{x - min}{max - max} $$ 3. MaxAbs Scaler $$ z = \frac{x}{max\_abs} $$ 4. Robust Scaler - Q1: 1사분위수 - Q2: 중앙값(median) - Q3: 3사분위수 $$ z = \frac{x-Q2}{Q3-Q1} $$ 5. Normalizer 코드 ```python class sklearn.preprocessing.Normalizer(norm='l2', *, copy=True) ``` 1) L..

Machine Learning 2023.06.07

[LLM] GPT4 - 논문 리뷰

논문 제출 날짜: 2023년 3월 15일논문 링크 GPT-4 Technical ReportWe report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professionalarxiv.org 0.  AbstractGPT-4는 이미지와 텍스트 입력을 받아 텍스트 출력을 생성할 수 있는 다중 모달 모델이다. 이 모델은 다음 토큰을 예측하는 ..

반응형