Global Vendors Training

Home > > 전체교육일정

Cloudera

Cloudera Data Scientist Training

교육일정
교육기간
4일
교육금액
2,394,000원(면세)
Cloudera전체일정보기 수강신청

교육개요

본 과정은 Apache Spark 2 및 Hadoop 에코 시스템의 주요 구성 요소를 사용하여 데이터 과학 및 기계 학습 워크 플로우를 대규모로 다루는 과정입니다. 본 과정은 실제 비즈니스 문제를 해결하기 위해 데이터 과학 및 기계 학습 방법의 사용을 강조합니다.



교육목표

허구의 기술 회사의 시나리오와 데이터 세트를 사용하여 학생들은 중요한 비즈니스 의사 결정을 지원하고 비즈니스를 변화시키는 데이터 제품을 개발하기 위한 통찰력을 기를 수 있는 과정입니다. 자료는 일련의 간략한 강의 상호 작용 시연, 광범위한 실습 및 토론을 제공합니다. Apache Spark 데모 및 연습은 Cloudera Data Science Workbench (CDSW) 환경을 사용하여 Python (PySpark) 및 R (sparklyr)에서 수행됩니다.



수강대상

데이터 과학 및 기계 학습에 대한 지식이있는 데이터 엔지니어 및 개발자



선수과목

Python 또는 R에 대한 기본적인 지식과 데이터 탐구 및 분석, 통계 또는 기계 학습 모델 개발 경험이 있어야합니다. 하둡 또는 스파크에 대한 지식은 필요하지 않습니다.



강의내용

규모의 데이터 과학 및 기계 학습 개요
하둡 생태계 개요
Hue를 사용하여 HDFS 데이터 및 Hive 테이블 작업
Cloudera Data Science Workbench 소개
Apache Spark 2 개요
데이터 읽기 및 쓰기
데이터 품질 검사
데이터 정리 및 변환
데이터 요약 및 그룹화
데이터 결합, 분할 및 변형
데이터 탐색
Spark 응용 프로그램 구성, 모니터링 및 문제 해결
Spark MLlib에서의 기계 학습 개요
피쳐 추출, 변형 및 선택
회귀 모델 작성 및 평가
분류 모델 구축 및 평가
클러스터링 모델 작성 및 평가
모델의 교차 검증 및 하이퍼 파라미터 조정
빌딩 기계 학습 파이프 라인
기계 학습 모델 배포



기타

교육비 면세