Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan Szkolenia
Wprowadzenie do skalowania Ollama
- Architektura i uwagi dotyczące skalowania Ollama
- Częste wąskie gardła w wdrożeniach wielo użytkowników
- Najlepsze praktyki dla przygotowania infrastruktury
Zarządzanie zasobami i optymalizacja GPU
- Efektywne strategie wykorzystania CPU/GPU
- Uwagi dotyczące pamięci i przepustowości
- Ograniczenia zasobów na poziomie kontenera
Wdrażanie z użyciem kontenerów i Kubernetes
- Konteneryzowanie Ollama z Docker
- Uruchamianie Ollama w klastrach Kubernetes
- Bilansowanie obciążenia i odkrywanie usług
Autoskalowanie i pakowanie
- Projektowanie polityk autoskalowania dla Ollama
- Techniki pakowania inferencji dla optymalizacji przepustowości
- Zbilansowanie opóźnień wobec przepustowości
Optymalizacja opóźnień
- Profilowanie wydajności inferencji
- Strategie pamięci podręcznej i przygotowywania modeli
- Ograniczenie nadmiaru I/O i komunikacji
Monitorowanie i obserwowalność
- Integracja Prometheus dla metryk
- Budowanie dashboardów z Grafana
- Alarmowanie i reakcja na zdarzenia dla infrastruktury Ollama
Zarządzanie kosztami i strategie skalowania
- Optymalizacja alokacji GPU z uwzględnieniem kosztów
- Rozważania dotyczące wdrożeń w chmurze vs. lokalnych
- Strategie dla zrównoważonego skalowania
Podsumowanie i następne kroki
Wymagania
- Doświadczenie w administrowaniu systemem Linux
- Zrozumienie kontejneryzacji i orchestracji
- Znajomość wdrażania modeli uczenia maszynowego
Grupa docelowa
- Inżynierowie DevOps
- Zespoły infrastruktury ML
- Inżynierowie niezawodności stron
21 godzin