인공지능 개발자 수다(유튜브 바로가기) 자세히보기

MLOps

[Data Lake] 데이터 레이크 설명

Suda_777 2021. 5. 18. 00:46

목차

    반응형

    1. 데이터 레이크는 왜 필요할까?

    • 데이터의 양이 많지 않고 앞으로도 쌓일 데이터가 없을 것이라고 예상된다면, 데이터 레이크는 필요하지 않다. 그러나 빅데이터가 존재하는 곳이라면 데이터레이크는 필수적이다.
    • 지금은 데이터가 곧 돈이 되는 정보화 시대이다. 생성된 데이터를 그냥 버리는 것이 아니라, 잘 정리해서 모아두는 것이 현 시대에 아주 중요한 일이 아닐 수 없다.

     

    2. 데이터 레이크란

    2.1. 목적

    • 데이터 분석을 위해 데이터를 쌓음
    • 인공지능 학습을 위해 데이터를 쌓음

    2.2. 특징

    • Raw 데이터를 있는 그대로 저징해 두는 저장소
    • 대용량 데이터
    • 정형/비정형 데이터 모두 저장
    • 중앙 집중식 저장소
    • 분산 시스템

     

    2.3. 단점

    • 관리하기가 복잡하다
    • 데이터 사용시 변형을 해야한다.

     

    3. 제품

    3.1. 클라우드 제품

    • AWS lake Formation
      • S3에 데이터 저장
      • AWS Glue를 통한 ETL
      • AWS Lambda로 컴퓨팅 리소스를 자동으로 관리

     

    3.2. 오픈 소스

    • Hadoop

     

    4. Data Lake 사용 방법

    • ETL 과정을 통해 데이터를 정제해서 사용한다. (ETL도 여러 제품이 존재한다.)
    반응형