Bądźmy w kontakcie

Plan Szkolenia

Wprowadzenie do skalowania Ollama

  • Architektura Ollama i zagadnienia związane ze skalowaniem
  • Typowe wąskie gardła w wdrożeniach wieloużytkownikowych
  • Najlepsze praktyki przygotowania infrastruktury

Alokacja zasobów i optymalizacja GPU

  • Strategie efektywnego wykorzystania CPU/GPU
  • Zagadnienia dotyczące pamięci i przepustowości
  • Ograniczenia zasobów na poziomie kontenera

Wdrażanie z wykorzystaniem kontenerów i Kubernetes

  • Konteneryzacja Ollama za pomocą Dockera
  • Uruchamianie Ollama w klastrach Kubernetes
  • Równoważenie obciążenia i wykrywanie usług

Automatyczne skalowanie i grupowanie

  • Projektowanie polityk automatycznego skalowania dla Ollama
  • Techniki wnioskowania wsadowego dla optymalizacji przepustowości
  • Kompromisy między opóźnieniem a przepustowością

Optymalizacja opóźnień

  • Profilowanie wydajności wnioskowania
  • Strategie buforowania i rozgrzewania modeli
  • Redukcja narzutu I/O i komunikacji

Monitorowanie i obserwowalność

  • Integracja Prometheusa do zbierania metryk
  • Tworzenie pulpitów nawigacyjnych w Grafanie
  • Alerty i reagowanie na incydenty w infrastrukturze Ollama

Zarządzanie kosztami i strategie skalowania

  • Alokacja GPU z uwzględnieniem kosztów
  • Rozważania dotyczące wdrożeń w chmurze a lokalnie
  • Strategie zrównoważonego skalowania

Podsumowanie i kolejne kroki

Wymagania

  • Doświadczenie w administracji systemami Linux
  • Zrozumienie konteneryzacji i orchestracji
  • Znajomość wdrażania modeli uczenia maszynowego

Odbiorcy

  • Inżynierowie DevOps
  • Zespoły infrastruktury ML
  • Inżynierowie niezawodności serwisów
 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Propozycje terminów

Powiązane Kategorie