Global Knowledge

Cloudera

교육개요

과정명이 변경되었습니다
기존 : Cloudera Data Scientist Training
변경된 과정명 : DSCI-272: Predicting with Cloudera Machine Learning

엔터프라이즈 데이터 과학 팀은 기계 학습 워크플로를 개발하고 배포하는 데 필요한 비즈니스 데이터, 도구 및 컴퓨팅 리소스에 대한 협업 액세스가 필요합니다.
CDP(Cloudera Data Platform)의 일부인 CML(Cloudera Machine Learning)은 데이터 사이언스 팀에 필요한 리소스를 제공하는 솔루션을 제공합니다.
이 4일 과정에서는 CML을 사용한 기계 학습 워크플로 및 작업을 다룹니다. 참가자는 데이터를 탐색, 시각화 및 분석합니다. 또한 기계 학습 모델을 학습, 평가 및 배포합니다.
이 과정은 가상의 기술 회사의 현실적인 시나리오와 데이터 세트를 기반으로 하는 엔드 투 엔드 데이터 과학 및 기계 학습 워크플로를 안내합니다. 데모 및 연습은 CML을 사용하여 Python(PySpark 포함)으로 수행됩니다.

교육목표

- Cloudera SDX 및 Cloudera Data Platform의 기타 구성 요소를 활용하여 머신 러닝 실험을 위한 데이터 찾기
- 응용 ML 프로토타입(AMP) 사용
- 기계 학습 실험 관리
- 다양한 데이터 소스에 연결 및 데이터 탐색
- Apache Spark 및 Spark ML 활용
- ML 모델을 REST API로 배포
- 배포된 ML 모델 관리 및 모니터링

수강대상

데이터 엔지니어, 개발자, 솔루션 설계자

강의내용

CML 소개
- 개요
- CML과 CDSW 비교
- ML 작업공간
- 작업공간 역할
- 프로젝트 및 팀
- 설정
- 런타임/레거시 엔진

AMP 및 워크벤치 소개
- 편집자 및 IDE
- Git
- 내장형 웹 애플리케이션
- AMPs

데이터 액세스 및 계보
- SDX 개요
- 데이터 카탈로그
- 승인
- Lineage

CML의 데이터 시각화
- 데이터 시각화 개요
- CDP 데이터 시각화 개념
- CML에서 데이터 시각화 사용

실험
- CML 실험

CML 네이티브 워크벤치 소개
- 코드 입력
- Getting Help
- Linux 명령줄에 액세스
- Python 패키지 작업
- 세션 출력 형식 지정

스파크 개요
- 스파크 작동 방식
- 스파크 스택
- Spark의 파일 형식
- 스파크 인터페이스 언어
- PySpark 소개
- DataFrame 작업이 Spark 작업이 되는 방법
- Spark가 작업을 실행하는 방법

스파크 애플리케이션 실행
- Spark 애플리케이션 실행
- Spark SQL DataFrame으로 데이터 읽기
- DataFrame의 스키마 검사
- DataFrame의 행과 열 수 계산
- DataFrame의 몇 행 검사
- Spark 애플리케이션 중지

Spark DataFrame 검사
- DataFrame 검사
- DataFrame 열 검사

DataFrame 변환
- Spark SQL 데이터프레임
- 열 작업
- 행 작업
- 누락된 값 작업

DataFrame 열 변환
- 스파크 SQL 데이터 유형
- 숫자 열 작업
- 문자열 열 작업
- 날짜 및 타임스탬프 열 작업
- Boolean 열 작업

복합 유형
- 복잡한 컬렉션 데이터 유형
- 어레이
- 지도
- 구조체

사용자 정의 함수
- 사용자 정의 함수
- 예시 1: 시간
- 예시 2: 대권 거리

DataFrame 읽기 및 쓰기
- 구분된 텍스트 파일 작업
- 텍스트 파일 작업
- 쪽모이 세공 파일 작업
- Hive 테이블 작업
- 객체 저장소 작업
- Pandas DataFrame으로 작업하기

DataFrame 결합 및 분할
- DataFrame 결합 및 분할
- DataFrame 조인
- DataFrame 분할

DataFrame 요약 및 그룹화
- 집계 함수로 데이터 요약
- 데이터 그룹화
- 데이터 피버팅

Window Functions
- Window Functions
- 예: 누적 개수 및 합계
- 예: 각 라이더의 탑승 간 평균 일수 계산

기계 학습 개요
- 머신러닝 소개
- 머신러닝 도구

아파치 스파크 MLlib
- Apache Spark MLlib 소개

DataFrame 탐색 및 시각화
- 빅데이터에 가능한 워크플로우
- 단일 변수 탐색
- 변수 쌍 탐색

Spark 애플리케이션 모니터링, 조정 및 구성
- Spark 애플리케이션 모니터링
- 스파크 환경 구성

회귀 모델 피팅 및 평가
- 특징 벡터를 조합한다
- 선형 회귀 모델 적합

분류 모델 피팅 및 평가
- 라벨 생성
- 로지스틱 회귀 모델 적합

그리드 검색을 사용한 알고리즘 하이퍼파라미터 조정
- 하이퍼파라미터 튜닝 요구사항
- 홀드아웃 교차 검증을 사용하여 초매개변수 조정
- K-Fold Cross Validation을 사용하여 초매개변수 조정

클러스터링 모델 피팅 및 평가
- 홈 좌표를 인쇄하고 플롯합니다.
- 가우스 혼합 모델 피팅
- 클러스터 프로필 탐색

텍스트 처리: 주제 모델 피팅 및 평가
- 잠재 Dirichlet 할당을 사용하여 주제 모델 적합

추천 모델 피팅 및 평가
- 추천 모델
- 추천 생성

기계 학습 파이프라인 작업
- 파이프라인 모델에 적합
- 파이프라인 모델 검사

Spark DataFrame에 Scikit-Learn 모델 적용
- Scikit-Learn 모델 구축
- Spark UDF를 사용하여 모델 적용

CML에서 기계 학습 모델을 REST API로 배포
- 직렬화된 모델 로드
- 예측 생성을 위한 래퍼 함수 정의
- 기능 테스트

자동 크기 조정, 성능 및 GPU 설정
- 작업 부하 자동 확장
- GPU 작업

모델 지표 및 모니터링
- 모델을 모니터링하는 이유는 무엇입니까?
- 공통 모델 측정항목
- Evidently를 사용한 모니터링 모델
- 지속적인 모델 모니터링

부록: 작업 공간 프로비저닝
- 작업 공간 및 환경

Global Vendors Training

Cloudera

DSCI-272: Predicting with Cloudera Machine Learning

교육개요

교육목표

수강대상

강의내용