Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Infrastruktura EXO jako kod
- Przegląd wzorców wdrażania EXO: klastry jedno-węzłowe, wielowęzłowe i RDMA
- Automatyzacja instalacji zależności (Xcode, uv, Node.js, Rust) za pomocą zarządzania konfiguracją
- Użycie Nix flakes do powtarzalnych budowań EXO i środowisk deweloperskich
- Pisanie playbooków Ansible lub skryptów powłoki do automatycznego przygotowywania klastrów
Powtarzalne budowania i integracja CI
- Przypinanie zależności i budowanie panelu w potokach CI
- Przeprowadzanie testów dymnych EXO w GitHub Actions lub GitLab CI runners
- Tworzenie złotych obrazów i przepływów pracy opartych na migawkach dla maszyn wirtualnych macOS i Linux
- Wersjonowanie kart modeli obok kodu aplikacji
Automatyzacja odkrywania klastrów i sieci
- Konfiguracja mDNS i statycznego DNS dla niezawodnego odkrywania węzłów libp2p
- Automatyzacja tworzenia profilów sieciowych i zarządzania mostami Thunderbolt na macOS
- Użycie niestandardowych przestrzeni nazw (EXO_LIBP2P_NAMESPACE) do oddzielenia klastrów dev, staging i prod
- Reguły zapory ogniowej i segmentacja sieci dla środowisk wielodostępnych
Zarządzanie przechowywaniem i cyklem życia modeli
- Projektowanie strategii EXO_MODELS_DIRS i EXO_MODELS_READ_ONLY_DIRS
- Montowanie udziałów NFS lub SAN jako repozytoriów modeli tylko do odczytu dla szybkiego przygotowania
- Zarządzanie odśmiecaniem starych pamięci podręcznych i politykami przechowywania wersjonowanych wag
- Automatyzacja wstępnego pobierania modeli i kontroli stanu przed aktualizacjami
Monitorowanie i alerty
- Wysyłanie logów EXO do scentralizowanego logowania (ELK, Loki lub Splunk)
- Tworzenie paneli Grafana na podstawie danych EXO_TRACING_ENABLED
- Alerty dotyczące zmian w członkostwie klastra, zdarzeń OOM i skoków opóźnień wnioskowania
- Korelacja telemetrii sprzętowej macmon z regresjami wydajności modeli
Aktualizacja, wycofywanie i odzyskiwanie po awarii
- Testowanie aktualizacji binarnych EXO na węźle canary przed wdrożeniem na całą flotę
- Wycofywanie na poziomie modelu: przełączanie między skwantowanymi wersjami bez ponownego pobierania
- Tworzenie kopii zapasowych i przywracanie stanu klastra, niestandardowych przestrzeni nazw i pamięci podręcznych wag
- Dokumentowanie procedur odzyskiwania dla scenariuszy całkowitej przebudowy klastra
Zabezpieczenia i zgodność
- Stosowanie TLS na poziomie odwrotnego proxy (nginx, traefik) dla panelu i API
- Implementacja ograniczeń szybkości API i białych list IP dla punktów końcowych EXO
- Izolacja klastrów za pomocą VLAN i polityk sieciowych zero-trust
- Audyt dostępu i utrzymywanie inwentarza wdrożonych modeli i wersji
Wymagania
- Doświadczenie w praktykach DevOps (CI/CD, IaC, orkiestracja kontenerów)
- Znajomość administracji systemami macOS lub Linux oraz zarządzania pakietami
- Zrozumienie pojęć związanych z sieciami, DNS i przechowywaniem danych
Grupa docelowa
- Inżynierowie DevOps
- Architekci infrastruktury
- SRE odpowiedzialni za obciążenia AI na miejscu
21 godzin
Opinie uczestników (2)
Craig był bardzo zaangażowany w szkolenie, zawsze zapewniał, że jesteśmy skupieni, dostosowywał przykłady do naszej codziennej pracy i zawsze udzielał odpowiedzi na zadane pytania, nawet jeśli informacja nie była zawarta w prezentacji.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Szkolenie - DevOps Foundation®
Przetłumaczone przez sztuczną inteligencję
Wysoki poziom zaangażowania i wiedzy trenera
Jacek - Softsystem
Szkolenie - DevOps Engineering Foundation (DOEF)®
Przetłumaczone przez sztuczną inteligencję