Virtual Live

Home > Virtual Live > 전체교육일정

BigData

데이터 파이프라인 구축과 활용 실무

교육일정
교육기간
3일
교육금액
1,320,000원(부가세포함)
BigData전체일정보기 수강신청

교육목표

데이터 활용을 위해서는 데이터 파이프라인을 구축하고 운용할 수 있는 능력이 필요하다.
데이터 파이프라인을 제대로 구축하기 위해서는 빅데이터를 이해하고 데이터 수집, 저장, 처리, 분석에 필요한 주요 시스템 및 기술들을 이해하고 활용할 수 있어야 한다.
또한, 데이터를 분산처리 할 수 있는 Hadoop 기본 기능과 역할을 이해하여 데이터 수집 시스템을 구성하고, Flume/Kafka, Nifi와 같은 툴을 활용하여 데이터 수집 방법을 학습한다.
데이터 저장과 처리를 위해서 SQL On Hadoop 기술을 이해하여 Hive, Impala를 실습하고, 실시간 데이터 분석을 위한 Spark의 기본적인 사용법 및 배운 내용을 기반으로  데이터 수집, 처리, 분석까지 빅데이터 분석 전과정을 다루는 실습을 수행한다.



수강대상

- 데이터파이프라인 구축에 필요한 데이터 전처리가 필요한 데이터 실무자
- 데이터가 저장/처리/분석 단계를 거쳐 서비스로 만들어지는 전체 프로세스를 이해하고 싶은 사람
- 데이터 엔지니어로서의 (혹은 데이터 엔지니어가 되기 위해) 기초부터 실력을 쌓고 싶은 사람
- Hadoop 기반의 빅데이터 플랫폼을 업무에 환경에 맞게 설치와 운영이 필요한 데이터 엔지니어



강의내용

Module 1. 데이터 수집 시스템 (Sqoop, Flume, Kafka)
- 데이터 파이프라인 이해
- 데이터 파이프라인 각 단계 프로세스와 패키지 이해
- 빅데이터 수집 (로그 기반, 관계형 데이터 기반, 인터넷 데이터 기반)
- 데이터 수집 도구 Sqoop 개념 및 아키텍처
- 데이터 수집 툴 Flume/Kafka/Apache Nifi 활용

Module 2. 데이터 저장 및 전처리 (NoSQL, HBase)
- 비정형 데이터베이스 분산 저장 시스템의 개념 및 특징(NoSQL)
- Hbase, Cassandra, MongoDB 개념 및 특징
- NoSQL의 데이터 모델링 패턴 및 데이터 모델링 절차

Module 3. 실시간/배치 데이터 처리 (Spark, Pig, Hive, Impala 등)
- Pig, Hive를 이용한 분산 데이터 처리 기술
- SQL질의 Impala를 이용한 실시간 대용량 처리
- 실시간으로 스트림 데이터를 빠르게 처리하는 Spark Streaming
- Spark기반으로 SQL을 사용하기 위한 개념
- Spark ML의 특징 및 모델 구축