Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Wprowadzenie do skalowania Ollama
- Architektura i uwagi dotyczące skalowania Ollama
- Częste wąskie gardła w wdrożeniach wielo użytkowników
- Najlepsze praktyki dla przygotowania infrastruktury
Zarządzanie zasobami i optymalizacja GPU
- Efektywne strategie wykorzystania CPU/GPU
- Uwagi dotyczące pamięci i przepustowości
- Ograniczenia zasobów na poziomie kontenera
Wdrażanie z użyciem kontenerów i Kubernetes
- Konteneryzowanie Ollama z Docker
- Uruchamianie Ollama w klastrach Kubernetes
- Bilansowanie obciążenia i odkrywanie usług
Autoskalowanie i pakowanie
- Projektowanie polityk autoskalowania dla Ollama
- Techniki pakowania inferencji dla optymalizacji przepustowości
- Zbilansowanie opóźnień wobec przepustowości
Optymalizacja opóźnień
- Profilowanie wydajności inferencji
- Strategie pamięci podręcznej i przygotowywania modeli
- Ograniczenie nadmiaru I/O i komunikacji
Monitorowanie i obserwowalność
- Integracja Prometheus dla metryk
- Budowanie dashboardów z Grafana
- Alarmowanie i reakcja na zdarzenia dla infrastruktury Ollama
Zarządzanie kosztami i strategie skalowania
- Optymalizacja alokacji GPU z uwzględnieniem kosztów
- Rozważania dotyczące wdrożeń w chmurze vs. lokalnych
- Strategie dla zrównoważonego skalowania
Podsumowanie i następne kroki
Wymagania
- Doświadczenie w administrowaniu systemem Linux
- Zrozumienie kontejneryzacji i orchestracji
- Znajomość wdrażania modeli uczenia maszynowego
Grupa docelowa
- Inżynierowie DevOps
- Zespoły infrastruktury ML
- Inżynierowie niezawodności stron
21 godzin