Plan Szkolenia

Wprowadzenie do skalowania Ollama

  • Architektura i uwagi dotyczące skalowania Ollama
  • Częste wąskie gardła w wdrożeniach wielo użytkowników
  • Najlepsze praktyki dla przygotowania infrastruktury

Zarządzanie zasobami i optymalizacja GPU

  • Efektywne strategie wykorzystania CPU/GPU
  • Uwagi dotyczące pamięci i przepustowości
  • Ograniczenia zasobów na poziomie kontenera

Wdrażanie z użyciem kontenerów i Kubernetes

  • Konteneryzowanie Ollama z Docker
  • Uruchamianie Ollama w klastrach Kubernetes
  • Bilansowanie obciążenia i odkrywanie usług

Autoskalowanie i pakowanie

  • Projektowanie polityk autoskalowania dla Ollama
  • Techniki pakowania inferencji dla optymalizacji przepustowości
  • Zbilansowanie opóźnień wobec przepustowości

Optymalizacja opóźnień

  • Profilowanie wydajności inferencji
  • Strategie pamięci podręcznej i przygotowywania modeli
  • Ograniczenie nadmiaru I/O i komunikacji

Monitorowanie i obserwowalność

  • Integracja Prometheus dla metryk
  • Budowanie dashboardów z Grafana
  • Alarmowanie i reakcja na zdarzenia dla infrastruktury Ollama

Zarządzanie kosztami i strategie skalowania

  • Optymalizacja alokacji GPU z uwzględnieniem kosztów
  • Rozważania dotyczące wdrożeń w chmurze vs. lokalnych
  • Strategie dla zrównoważonego skalowania

Podsumowanie i następne kroki

Wymagania

  • Doświadczenie w administrowaniu systemem Linux
  • Zrozumienie kontejneryzacji i orchestracji
  • Znajomość wdrażania modeli uczenia maszynowego

Grupa docelowa

  • Inżynierowie DevOps
  • Zespoły infrastruktury ML
  • Inżynierowie niezawodności stron
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie