Plan Szkolenia

Pojęcia i metryki wydajności

  • Opóźnienie, przepustowość, zużycie energii, wykorzystanie zasobów
  • Uwężenia poziomu systemu vs modelu
  • Profilowanie dla inferencji vs treningu

Profilowanie na Huawei Ascend

  • Używanie CANN Profiler i MindInsight
  • Diagnoza jąder i operatorów
  • Wzorce rozładowywania i mapowania pamięci

Profilowanie na Biren GPU

  • Funkcje monitorowania wydajności Biren SDK
  • Fuzja jąder, wyrównanie pamięci i kolejki wykonania
  • Profilowanie z uwzględnieniem mocy i temperatury

Profilowanie na Cambricon MLU

  • Narzędzia wydajnościowe BANGPy i Neuware
  • Widoczność poziomu jąder i interpretacja logów
  • Integracja MLU profiler z ramami wdrażania

Optymalizacja na poziomie grafu i modelu

  • Strategie obcinania grafu i kwantyzacji
  • Fuzja operatorów i restrukturyzacja grafu obliczeniowego
  • Standaryzacja rozmiaru wejścia i dostosowanie partii

Optymalizacja pamięci i jąder

  • Optymalizacja układu pamięci i jej ponownego użycia
  • Efektywne zarządzanie buforami w różnych zestawach chipów
  • Techniki dostrajania poziomu jąder dla poszczególnych platform

Najlepsze praktyki w zakresie wieloplatformowości

  • Portowalność wydajności: strategie abstrakcji
  • Budowanie wspólnych kanałów dostrajania dla środowisk wielochipowych
  • Przykład: dostrajanie modelu wykrywania obiektów na platformach Ascend, Biren i MLU

Podsumowanie i następne kroki

Wymagania

  • Doświadczenie w pracy z pipeline'ami trenowania lub wdrażania modeli AI
  • Zrozumienie zasad obliczeń i optymalizacji modeli GPU/MLU
  • Podstawowa znajomość narzędzi i wskaźników profilowania wydajności

Grupa docelowa

  • Inżynierowie wydajności
  • Zespoły infrastruktury uczenia maszynowego
  • Architekci systemów AI
 21 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie