한국글로벌널리지

전체교육일정

교육개요

과정명이 변경되었습니다
기존 : Cloudera Data Analyst Training
변경된 과정명 : DANA-262: Analyzing with Cloudera Data Warehouse

데이터 분석가 교육 과정은 기존 데이터 분석 및 비즈니스 인텔리전스 기술을 빅 데이터에 적용하는 방법을 알려줍니다. 이 과정에서는 데이터 전문가가 SQL 및 익숙한 스크립팅 언어를 사용하여 복잡한 데이터 세트에 액세스, 조작, 변환 및 분석을 하는 데 필요한 도구들을 제공합니다.

Cloudera Certification(자격증)
해당 과정 수강후 'CDP Data Analyst' 취득을 준비 할 수 있습니다.
온라인 시험비용 및 신청관련해서 문의주시면 안내도와드리겠습니다.

자격증소개
이 CDP 데이터 분석가 시험은 데이터 분석가가 자신의 역할을 성공적으로 수행하는 데 필요한 Cloudera 기술과 지식을 테스트합니다. 이 시험은 Cloudera Data Visualization, Cloudera Machine Learning, Cloudera Data Science Workbench, Cloudera Data Warehouse 및 SQL, Apache Nifi, Apache Hive 및 기타 오픈 소스 기술과 같은 Cloudera 제품의 사용을 테스트합니다.

참고: 시험이 현재 베타 단계에 있지만(내용에 약간의 수정 사항이 있을 수 있음) 합격하면 인증을 받을 수 있습니다.

www.cloudera.com/about/training/certification.html

교육목표

- 빅 데이터 도구들의 오픈소스 에코 시스템이 기존 RDBMS로 해결되지 않은 문제를 해결하는 방법
- Apache Hive 및 Apache Impala를 사용하여 데이터에 대한 SQL 액세스 제공
- 함수 및 하위 쿼리를 포함한 Hive 및 Impala 구문 및 데이터 형식
- 테이블, 뷰 및 데이터베이스를 생성, 수정 및 삭제; 데이터로드; 쿼리 결과 저장
- 파티션 및 다양한 파일 형식 생성 및 사용
- 필요에 따라 JOIN 또는 UNION을 사용하여 둘 이상의 데이터 세트 결합
- analytic 및 windowing 기능의 정의 및 사용 방법
- 복잡하거나 중첩된 데이터 구조 저장 및 쿼리
- 반 정형 및 비정형 데이터 처리 및 분석
- Hive 및 Impala 쿼리를 최적화하기위한 기술
- 매개 변수, 사용자정의 파일 형식 및 SerDes, 외부 스크립트를 사용하여 Hive 및 Impala의 기능 확장
- 주어진 작업에 대해서 Hive, Impala, RDBMS 또는 이들이 혼합 중에서 가장 적합한 것을 결정하는 방법

수강대상

데이터 분석가, 비즈니스 인텔리전스 전문가, 개발자, 시스템 설계자, 데이터베이스 관리자

선수과목

- SQL에 대한 기본 지식
- Linux 기본 명령

강의내용

1. 소개

2. Apache Hadoop 기초
-Hadoop에 대한 동기
-Hadoop 개요
-데이터 스토리지 : HDFS
-분산 데이터 처리 : YARN, MapReduce 및 Spark
-데이터 처리 및 분석 : Pig, Hive 및 Impala
-데이터베이스 통합 : Sqoop
-기타 Hadoop 데이터 도구
-실습 시나리오 설명

3.Apache Hive 및 Impala 소개
-Hive란?
-Impala란?
-Hive와 Impala를 사용하는 이유
-스키마 및 데이터 스토리지
-Hive 및 Impala와 기존 데이터베이스 비교
-사용 사례

4.Apache Hive 및 Impala를 사용한 쿼리
-데이터베이스 및 테이블
-기본 Hive 및 Impala 쿼리 언어 구문
-데이터 유형
-Hue를 사용하여 쿼리 실행
-Beeline (Hive의 셸) 사용
-Impala Shell 사용

5.공통 연산자 및 내장 함수
-연산자
-스칼라 함수
-집계 함수

6.데이터 관리
-데이터 스토리지
-데이터베이스 및 테이블 생성
-데이터 로딩
-데이터베이스 및 테이블 변경
-View를 사용하여 쿼리 단순화
-쿼리 결과 저장

7.데이터 스토리지 및 성능
-테이블 분할
-분할된 테이블에 데이터 로딩
-파티셔닝을 사용하는 경우
-파일 형식 선택
-Avro 및 Parquet 파일 형식 사용

8.다중 Datasets 작업
-UNION 및 Join
-Join에서 NULL 값 처리
-고급 Joins

9.분석 함수 및 Windowing
-일반적인 분석 함수 사용
-기타 분석 기능
-슬라이딩 윈도우

10.복잡한 데이터
- 복잡한 데이터 Hive 사용
- 복잡한 데이터 Impala 사용

11.텍스트 분석
-Hive 및 Impala에서 정규식 사용
-Hive에서 SerDes로 텍스트 데이터 처리
-Sentiment 분석 및 n-grams

12.Apache Hive 최적화
-쿼리 성능 이해
-Bucketing
-Hive on Spark

13.Apache Impala 최적화
-Impala가 쿼리를 실행하는 방법
-Impala 성능 향상

14.Apache Hive 및 Impala 확장
-Hive의 사용자 지정 SerDes 및 파일 형식
-Hive에서 사용자 지정 스크립트를 사용한 데이터 변환
-사용자 정의 함수
-매개 변수화 된 쿼리

15.작업에 가장 적합한 도구 선택
- Hive, Impala 및 관계형 데이터베이스 비교
- 무엇을 선택해야 할까?

16. 결론