Global Knowledge

Cloudera

교육개요

이 강의는 AI 모델을 경량화하고 효율적으로 서빙하는 기술을 배우는 온라인 과정입니다. Quantization, Pruning, Knowledge Distillation을 통한 모델 최적화부터 TensorFlow Serving, TorchServe 등의 프레임워크를 사용한 모델 서빙까지, 이론과 실습을 겸비한 커리큘럼을 제공합니다. 실제 사례를 통한 sLLM 구축과 성능 최적화, 비용 관리 전략 등 심화 내용도 다룹니다. 최첨단 AI 서비스를 만들고 싶은 당신의 도전을 이 강의가 함께 할 것입니다!

교육목표

모델 경량화의 핵심 기술들인 Quantization, Pruning, Knowledge Distillation을 학습하고, sLLM(small Large Language Models)의 구축 및 실습을 통해 경량화된 모델의 성능을 탐구합니다.

강의내용

[Chapter1. 모델 경량화의 기초]
· 학습 목표
경량화의 개념과 중요성을 이해하고, Quantization, Pruning, Knowledge Distillation 등의 다양한 경량화 기법을 학습하여 모델의 크기를 줄이는 방법을 비교하고 성능과 효율성을 파악한다.
· 주요 내용
1. 경량화의 개념 및 중요성 이해
2. 모델 크기 축소의 다양한 방법 (Quantization, Pruning, Knowledge Distillation)
3. 경량화 모델의 성능과 효율성 비교

[Chapter2. Knowledge Distillation을 활용한 sLLM]
· 학습 목표
Knowledge Distillation의 원리와 방법론을 이해하고, 실제 사례를 통해 sLLM을 구축하는 방법을 실습한다.
· 주요 내용
1. Knowledge Distillation의 원리 및 방법론
2. 실제 사례와 Knowledge Distillation을 통한 sLLM 구축 실습

[Chapter3. Quantization과 Pruning]
· 학습 목표
Quantization과 Pruning 기법을 소개하고, 실습을 통해 경량화 모델의 성능을 테스트한다. 또한, 이를 통해 모델의 크기와 속도의 균형을 조절하는 방법을 학습한다.
· 주요 내용
1. Quantization과 Pruning 기법 소개
2. 실습을 통한 경량화 모델의 성능 테스트
3. 모델 크기와 속도의 균형 찾기

[Chapter4. 모델 서빙의 개요]
· 학습 목표
모델 서빙의 개념과 중요성을 이해하며, 서빙 아키텍처와 모델 서빙 기술을 학습한다.
· 주요 내용
1. 모델 서빙의 개념 및 생산 환경에서의 중요성
2. 서빙 아키텍처의 기본 구성 요소
3. 모델 서빙 기술과 프레임워크

[Chapter5. 모델 서빙 기술과 프레임워크]
· 학습 목표
TensorFlow Serving, TorchServe, ONNX, TensorRT 등의 서빙 기술을 소개하고, 각 기술의 장단점을 비교하며, 프레임워크 선택 기준과 적용 사례를 학습한다.
· 주요 내용
1. TensorFlow Serving, TorchServe, ONNX, TensorRT 등 서빙 기술 소개
2. 각 서빙 기술의 장단점 비교
3. 프레임워크 선택 기준과 적용 사례

[Chapter6. sLLM 모델 서빙 실습]
· 학습 목표
실제 모델을 서빙하고, 이를 통해 모델 배포, 모니터링, 유지 보수 전략을 배우며, 성능 최적화와 비용 관리에 대한 전략을 습득한다.
· 주요 내용
1. 모델 서빙 프레임워크를 이용한 실제 모델 서빙 실습
2. 모델 배포, 모니터링, 유지 보수에 대한 전략
3. 성능 최적화 및 비용 관리

Global Vendors Training

Cloudera

sLLM을 위한 모델 경량화 및 모델서빙

교육개요

교육목표

강의내용