Bądźmy w kontakcie

Plan Szkolenia

Infrastruktura EXO jako kod

  • Przegląd wzorców wdrażania EXO: klastry jedno-węzłowe, wielowęzłowe i RDMA
  • Automatyzacja instalacji zależności (Xcode, uv, Node.js, Rust) za pomocą zarządzania konfiguracją
  • Użycie Nix flakes do powtarzalnych budowań EXO i środowisk deweloperskich
  • Pisanie playbooków Ansible lub skryptów powłoki do automatycznego przygotowywania klastrów

Powtarzalne budowania i integracja CI

  • Przypinanie zależności i budowanie panelu w potokach CI
  • Przeprowadzanie testów dymnych EXO w GitHub Actions lub GitLab CI runners
  • Tworzenie złotych obrazów i przepływów pracy opartych na migawkach dla maszyn wirtualnych macOS i Linux
  • Wersjonowanie kart modeli obok kodu aplikacji

Automatyzacja odkrywania klastrów i sieci

  • Konfiguracja mDNS i statycznego DNS dla niezawodnego odkrywania węzłów libp2p
  • Automatyzacja tworzenia profilów sieciowych i zarządzania mostami Thunderbolt na macOS
  • Użycie niestandardowych przestrzeni nazw (EXO_LIBP2P_NAMESPACE) do oddzielenia klastrów dev, staging i prod
  • Reguły zapory ogniowej i segmentacja sieci dla środowisk wielodostępnych

Zarządzanie przechowywaniem i cyklem życia modeli

  • Projektowanie strategii EXO_MODELS_DIRS i EXO_MODELS_READ_ONLY_DIRS
  • Montowanie udziałów NFS lub SAN jako repozytoriów modeli tylko do odczytu dla szybkiego przygotowania
  • Zarządzanie odśmiecaniem starych pamięci podręcznych i politykami przechowywania wersjonowanych wag
  • Automatyzacja wstępnego pobierania modeli i kontroli stanu przed aktualizacjami

Monitorowanie i alerty

  • Wysyłanie logów EXO do scentralizowanego logowania (ELK, Loki lub Splunk)
  • Tworzenie paneli Grafana na podstawie danych EXO_TRACING_ENABLED
  • Alerty dotyczące zmian w członkostwie klastra, zdarzeń OOM i skoków opóźnień wnioskowania
  • Korelacja telemetrii sprzętowej macmon z regresjami wydajności modeli

Aktualizacja, wycofywanie i odzyskiwanie po awarii

  • Testowanie aktualizacji binarnych EXO na węźle canary przed wdrożeniem na całą flotę
  • Wycofywanie na poziomie modelu: przełączanie między skwantowanymi wersjami bez ponownego pobierania
  • Tworzenie kopii zapasowych i przywracanie stanu klastra, niestandardowych przestrzeni nazw i pamięci podręcznych wag
  • Dokumentowanie procedur odzyskiwania dla scenariuszy całkowitej przebudowy klastra

Zabezpieczenia i zgodność

  • Stosowanie TLS na poziomie odwrotnego proxy (nginx, traefik) dla panelu i API
  • Implementacja ograniczeń szybkości API i białych list IP dla punktów końcowych EXO
  • Izolacja klastrów za pomocą VLAN i polityk sieciowych zero-trust
  • Audyt dostępu i utrzymywanie inwentarza wdrożonych modeli i wersji

Wymagania

  • Doświadczenie w praktykach DevOps (CI/CD, IaC, orkiestracja kontenerów)
  • Znajomość administracji systemami macOS lub Linux oraz zarządzania pakietami
  • Zrozumienie pojęć związanych z sieciami, DNS i przechowywaniem danych

Grupa docelowa

  • Inżynierowie DevOps
  • Architekci infrastruktury
  • SRE odpowiedzialni za obciążenia AI na miejscu
 21 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie