인공지능 개발자 수다(유튜브 바로가기) 자세히보기
반응형

전체 글 90

[Data Lake] 데이터 레이크 설명

1. 데이터 레이크는 왜 필요할까? 데이터의 양이 많지 않고 앞으로도 쌓일 데이터가 없을 것이라고 예상된다면, 데이터 레이크는 필요하지 않다. 그러나 빅데이터가 존재하는 곳이라면 데이터레이크는 필수적이다. 지금은 데이터가 곧 돈이 되는 정보화 시대이다. 생성된 데이터를 그냥 버리는 것이 아니라, 잘 정리해서 모아두는 것이 현 시대에 아주 중요한 일이 아닐 수 없다. 2. 데이터 레이크란 2.1. 목적 데이터 분석을 위해 데이터를 쌓음 인공지능 학습을 위해 데이터를 쌓음 2.2. 특징 Raw 데이터를 있는 그대로 저징해 두는 저장소 대용량 데이터 정형/비정형 데이터 모두 저장 중앙 집중식 저장소 분산 시스템 2.3. 단점 관리하기가 복잡하다 데이터 사용시 변형을 해야한다. 3. 제품 3.1. 클라우드 제품..

MLOps 2021.05.18

[D3] scaling ,Margin, 색깔설정 (3)

1. 개요 이전 페이지에서는 elements를 만들고, 여러개를 동시에 수정하는 방법에 대해 학습했다. 이번 시간에는 픽셀값을 스케일링하는 법에 대해 학습하겠다. 2. Linear Scaling 설명 값을 선형 변환 해주는 함수 d3.scaleLinear() 함수를 이용 .domain() 함수: 원래 값에 대한 범위 .range() 함수 : 결과 값에 대한 범위 예시 let width = 400; let data = [{x:10,y:15},{x:20,y:10},{x:25,y:20},{x:35,y:30}] let xScale = d3.scaleLinear() .domain([0, d3.max(data,d=>d.x)]) .range([0, 400]) let yScale = d3.scaleLinear() .d..

[D3] D3 append함수, Update Pattern (2)

1. 정리 앞 장 에서는 Selection과 자주 사용되는 함수에 대해서 학습하였다. 다음으로는 D3의 더 복잡한 내용을 다루도록 하겠다. 2. 함수 2.1. Append 설명 append 함수를 이용해서 tag를 생성할 수 있음 letsvg = d3.select("#svg"); svg.append("circle") .attr("cx",10) .attr("cy",20) .attr("r",5) 2.2. Update Pattern 2.2.1. enter data함수를 통해 데이터가 저장되어 있음 데이터가 svg에는 들어가 있지 않음 2.2.2. update data함수를 통해 데이터가 저장되어 있음 데이터가 svg에 들어감 2.2.3. exit data함수를 통해 데이터가 저장되어 있지 않음 데이터가 svg..

[D3] Selection 사용법 (1)

1. 데이터 시각화와 D3 데이터를 그림, 그래프 형태로 보여주어 대략적인 데이터의 중요사항을 한눈에 알 수 있도록 함 D3는 데이터 시각화를 위한 도구, Javascript 라이브러리이다. D3를 실행한 결과는 HTML이다. 2. D3 입력 방법 html 파일에 삽입하여 사용 3. D3 기능 SVG의 요소를 ADD, modify, remove 할 수 있다. SVG (html을 활용해 그래프를 그릴 수 있는 라이브러리) 4. Selecting Elements 4.1. select 설명 하나의 element만 불러옴 # 은 html의 아이디를 불러옴 . 은 html의 클래스를 불러옴 예시 d3.select(".apple") d3.select("#apple") 4.2 selectAll 예시 d3.select..

[강화학습] Reinforcement Learning 기초 요약

기본개념 https://keraskorea.github.io/posts/2018-10-25-Keras%EB%A5%BC%20%ED%99%9C%EC%9A%A9%ED%95%9C%20%EC%A3%BC%EC%8B%9D%20%EA%B0%80%EA%B2%A9%20%EC%98%88%EC%B8%A1/ A) 기초통계¶ A-4) 조건부 확률¶$$P(Y|X) = \frac{P(X) \cap P(Y)}{P(X)}$$$$ P(Y,X) = P(Y|X) P(Y)$$응용 $$P(Y|X, Z) = \frac{P(Y,X|Z)}{P(Y|Z)}$$$$ P(Y,X|Z) = P(Y|X, Z) P(Y|Z)$$A-2)조건부 기대값¶$$E[Y|X=x] = \sum_{i} p(Y = y_i| X=x)y_i$$설명 : 각 사건이 일어날 확률과 각 사건의..

[Logistic Regression] 설명과 실습

In [5]: import numpy as np from sklearn.datasets import make_classification import statsmodels as sm from statsmodels.discrete.discrete_model import Logit from scipy import stats import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 1. 이론¶ 1.1. Logistic Regression 언제 사용하는가? 독립변수가 연속형 데이터 (수치) 독립변수 범위: $-\infty$ ~ $\infty$ 종속변수가 Binary (0 or 1로 표현 할 수 있는 데이터 일 때) 예: 남/여, ..

Machine Learning 2021.05.12

딥러닝 옵티마이저 (Optimizer) 종류와 설명

1. Gradient descent(GD)¶ $w^{t} = w^{t-1} - \eta \frac{\partial E}{\partial W}$ 2. Stochastic gradient decent(SGD)¶ full-batch가 아닌 mini batch로 학습을 진행하는 것(* batch로 학습하는 이유 : full-batch로 epoch마다 weight를 수정하지 않고 빠르게 mini-batch로 weight를 수정하면서 학습하기 위해) 3. Momentum¶ 현재 batch로만 학습하는 것이 아니라 이전의 batch 학습결과도 반영(관성 개념 적용) local minimum을 피하기 위한 방법 $m_{t} = \alpha m^{t-1} - \eta \frac{\partial E}{\partial W}..

Tensorflow에 데이터 올리기 (list, numpy, tensor)

In [37]: import tensorflow as tf import numpy as np import pandas as pd tf.__version__ Out[37]: '2.4.0' 1. 개요¶ 1.1. Dataset 설명¶ 데이터에는 여러가지 타입이 있다. 정형데이터 : CSV, Excel, mysql 반정형데이터 : html, xml 비정형데이터 : nosql, jpg, mp3, mp4, 센서데이터 Tensorflow가 데이터를 학습하기 위해서는 위의 다양한 데이터들을 일정한 형식의 데이터 셋으로 변형해야 한다. 1.2. model.fit 에 대한 설명¶ 정리된 데이터셋은 fit 함수의 파라미터로 들어가게 된다. 즉 fit함수에 알맞은 형태로 데이터셋을 만들어야 한다. In [ ]: model.f..

[LightGBM] 설명 및 장단점

lightGBM 1. 장점 Light GBM은 말 그대로 “Light” 가벼운 것인데요, 왜냐면 속도가 빠르기 때문입니다. Light GBM은 큰 사이즈의 데이터를 다룰 수 있고 실행시킬 때 적은 메모리를 차지합니다. Light GBM이 인기있는 또 다른 이유는 바로 결과의 정확도에 초점을 맞추기 때문입니다. LGBM은 또한 GPU 학습을 지원하기 때문에 데이터 사이언티스트가 데이터 분석 어플리케이션을 개발할 때 LGBM을 폭넓게 사용하고 있습니다. 2. 권장 데이터 수 LGBM을 작은 데이터 세트에 사용하는 것은 추천되지 않습니다. Light GBM은 overfitting (과적합)에 민감하고 작은 데이터에 대해서 과적합하기 쉽습니다. row (행) 수에 대한 제한은 없지만 제 경험상 10,000 이상..

Machine Learning 2021.04.27

Tensorflow 설치하는 방법

설치 가능 환경¶ TensorFlow는 다음 64비트 시스템에서 테스트 및 지원됩니다. Python 3.5~3.8 Ubuntu 16.04 이상 Windows 7 이상(C++ 재배포 가능 패키지) macOS 10.12.6(Sierra) 이상(GPU 지원 없음) Raspbian 9.0 이상 PIP에서 제공하는 버전¶ Requires the latest pip pip install --upgrade pip Current stable release for CPU and GPU pip install tensorflow pip install tensorflow-gpu==2.4.0 (추천) Or try the preview build (unstable) pip install tf-nightly 최신 버전으로 업데이트..

반응형