ROCm dla Windows - Plan Szkolenia
ROCm to platforma open source do programowania GPU, która obsługuje procesory AMD GPU, a także zapewnia kompatybilność z CUDA i OpenCL. ROCm ujawnia programiście szczegóły sprzętowe i daje pełną kontrolę nad procesem zrównoleglania. Wymaga to jednak również dobrego zrozumienia architektury urządzenia, modelu pamięci, modelu wykonania i technik optymalizacji.
ROCm for Windows to najnowsze osiągnięcie, które pozwala użytkownikom instalować i używać ROCm w systemie operacyjnym Windows, który jest szeroko stosowany do celów osobistych i zawodowych. ROCm for Windows umożliwia użytkownikom wykorzystanie mocy procesorów AMD GPU do różnych zastosowań, takich jak sztuczna inteligencja, gry, grafika i obliczenia naukowe.
Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą zainstalować i używać ROCm w systemie Windows do programowania procesorów AMD GPU i wykorzystywania ich równoległości.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko programistyczne, które obejmuje platformę ROCm, procesor AMD GPU i Visual Studio Code w systemie Windows.
- Stworzyć podstawowy program ROCm, który wykonuje dodawanie wektorowe na GPU i pobiera wyniki z pamięci GPU.
- Użyj interfejsu API ROCm, aby uzyskać informacje o urządzeniu, przydzielić i zwolnić pamięć urządzenia, skopiować dane między hostem a urządzeniem, uruchomić jądra i zsynchronizować wątki.
- Używanie języka HIP do pisania jąder, które wykonują się na GPU i manipulują danymi.
- Używanie wbudowanych funkcji, zmiennych i bibliotek HIP do wykonywania typowych zadań i operacji.
- Używanie przestrzeni pamięci ROCm i HIP, takich jak globalna, współdzielona, stała i lokalna, w celu optymalizacji transferu danych i dostępu do pamięci.
- Używanie modeli wykonania ROCm i HIP do kontrolowania wątków, bloków i siatek, które definiują równoległość.
- Debugowanie i testowanie programów ROCm i HIP przy użyciu narzędzi takich jak ROCm Debugger i ROCm Profiler.
- Optymalizacja programów ROCm i HIP przy użyciu technik takich jak koalescencja, buforowanie, wstępne pobieranie i profilowanie.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.
Plan Szkolenia
Wprowadzenie
- Co to jest ROCm?
- Czym jest HIP?
- ROCm vs CUDA vs OpenCL
- Przegląd funkcji i architektury ROCm i HIP
- ROCm dla ROCm for Windows vs ROCm dla Linux
Instalacja
- Instalacja ROCm w systemie Windows
- Weryfikacja instalacji i sprawdzenie kompatybilności urządzenia
- Aktualizacja lub odinstalowanie ROCm w systemie Windows
- Rozwiązywanie typowych problemów z instalacją
Pierwsze kroki
- Tworzenie nowego projektu ROCm przy użyciu Visual Studio Code w systemie Windows
- Przeglądanie struktury projektu i plików
- Kompilowanie i uruchamianie programu
- Wyświetlanie danych wyjściowych przy użyciu printf i fprintf
ROCm API
- Korzystanie z interfejsu API ROCm w programie hosta
- Sprawdzanie informacji o urządzeniu i jego możliwościach
- Przydzielanie i zwalnianie pamięci urządzenia
- Kopiowanie danych między hostem a urządzeniem
- Uruchamianie jądra i synchronizacja wątków
- Obsługa błędów i wyjątków
Język HIP
- Używanie języka HIP w programie urządzenia
- Pisanie jąder, które wykonują się na GPU i manipulują danymi
- Korzystanie z typów danych, kwalifikatorów, operatorów i wyrażeń
- Korzystanie z wbudowanych funkcji, zmiennych i bibliotek
Model pamięci ROCm i HIP
- Korzystanie z różnych przestrzeni pamięci, takich jak globalna, współdzielona, stała i lokalna
- Korzystanie z różnych obiektów pamięci, takich jak wskaźniki, tablice, tekstury i powierzchnie
- Korzystanie z różnych trybów dostępu do pamięci, takich jak tylko do odczytu, tylko do zapisu, odczyt-zapis itp.
- Korzystanie z modelu spójności pamięci i mechanizmów synchronizacji
Model wykonania ROCm i HIP
- Korzystanie z różnych modeli wykonania, takich jak wątki, bloki i siatki
- Używanie funkcji wątków, takich jak hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x itp.
- Używanie funkcji blokowych, takich jak __syncthreads, __threadfence_block itp.
- Korzystanie z funkcji siatki, takich jak hipGridDim_x, hipGridSync, grupy współpracy itp.
Debugowanie
- Debugowanie programów ROCm i HIP w systemie Windows
- Używanie debuggera Visual Studio Code do sprawdzania zmiennych, punktów przerwania, stosu wywołań itp.
- Używanie debugera ROCm do debugowania programów ROCm i HIP na urządzeniach AMD
- Używanie ROCm Profiler do analizowania programów ROCm i HIP na urządzeniach AMD
Optymalizacja
- Optymalizacja programów ROCm i HIP w systemie Windows
- Korzystanie z technik koalescencji w celu poprawy przepustowości pamięci
- Korzystanie z technik buforowania i pobierania wstępnego w celu zmniejszenia opóźnień pamięci
- Korzystanie z technik pamięci współdzielonej i lokalnej w celu optymalizacji dostępu do pamięci i przepustowości
- Korzystanie z profilowania i narzędzi do profilowania w celu pomiaru i poprawy czasu wykonywania i wykorzystania zasobów.
Podsumowanie i następny krok
Wymagania
- Zrozumienie języka C/C++ i koncepcji programowania równoległego
- Podstawowa znajomość architektury komputera i hierarchii pamięci
- Doświadczenie z narzędziami wiersza poleceń i edytorami kodu
- Znajomość systemu operacyjnego Windows i PowerShell
Odbiorcy
- Programiści, którzy chcą dowiedzieć się, jak zainstalować i używać ROCm w systemie Windows do programowania procesorów AMD GPU i wykorzystywania ich równoległości.
- Programiści, którzy chcą pisać wysokowydajny i skalowalny kod, który może działać na różnych urządzeniach AMD
- Programiści, którzy chcą poznać niskopoziomowe aspekty programowania GPU i zoptymalizować wydajność swojego kodu
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
ROCm dla Windows - Plan Szkolenia - Rezerwacja
ROCm dla Windows - Plan Szkolenia - Zapytanie
ROCm dla Windows - Zapytanie o Konsultacje
Propozycje terminów
Szkolenia Powiązane
Tworzenie aplikacji AI z wykorzystaniem Huawei Ascend i CANN
21 godzinHuawei Ascend to rodzina procesorów AI zaprojektowanych do wysokowydajnego wnioskowania i trenowania modeli.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do inżynierów AI i naukowców zajmujących się danymi na poziomie średnio zaawansowanym, którzy chcą rozwijać i optymalizować modele sieci neuronowych przy użyciu platformy Huawei Ascend oraz zestawu narzędzi CANN.
Po zakończeniu szkolenia uczestnicy będą w stanie:
- Skonfigurować środowisko deweloperskie CANN.
- Tworzyć aplikacje AI przy użyciu MindSpore i przepływów pracy CloudMatrix.
- Optymalizować wydajność na procesorach NPU Ascend przy użyciu niestandardowych operatorów i tilingu.
- Wdrażać modele w środowiskach brzegowych lub chmurowych.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne wykorzystanie Huawei Ascend i zestawu narzędzi CANN w przykładowych aplikacjach.
- Ćwiczenia z przewodnikiem skupione na budowaniu, trenowaniu i wdrażaniu modeli.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie na podstawie swojej infrastruktury lub zbiorów danych, skontaktuj się z nami.
Wdrażanie modeli AI z wykorzystaniem CANN i procesorów Ascend AI
14 godzinCANN (Compute Architecture for Neural Networks) to stos obliczeniowy AI firmy Huawei do wdrażania i optymalizacji modeli AI na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu) jest skierowane do średniozaawansowanych programistów i inżynierów AI, którzy chcą efektywnie wdrażać wytrenowane modele AI na sprzęcie Huawei Ascend przy użyciu zestawu narzędzi CANN oraz narzędzi takich jak MindSpore, TensorFlow czy PyTorch.
Po zakończeniu szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę CANN i jej rolę w procesie wdrażania AI.
- Konwertować i adaptować modele z popularnych frameworków do formatów zgodnych z Ascend.
- Korzystać z narzędzi takich jak ATC, konwersja modeli OM i MindSpore do wnioskowania na urządzeniach brzegowych i w chmurze.
- Diagnozować problemy związane z wdrażaniem i optymalizować wydajność na sprzęcie Ascend.
Format kursu
- Interaktywny wykład i demonstracja.
- Praktyczne ćwiczenia z wykorzystaniem narzędzi CANN i symulatorów lub urządzeń Ascend.
- Praktyczne scenariusze wdrażania oparte na rzeczywistych modelach AI.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
AI Inference and Deployment with CloudMatrix
21 godzinCloudMatrix jest zunifikowaną platformą Huawei do rozwoju i wdrażania sztucznej inteligencji, zaprojektowaną do obsługi skalowalnych, produkcyjnych wniosków.
Ten prowadzony przez instruktora kurs (online lub na miejscu) jest skierowany do AI profesjonalistów o poziomie początkującego do średniozaawansowanego, którzy chcą wdrażać i monitorować modele AI za pomocą platformy CloudMatrix z integracją CANN i MindSpore.
Po zakończeniu tego kursu uczestnicy będą w stanie:
- Używać CloudMatrix do pakowania, wdrażania i serwowania modeli.
- Konwertować i optymalizować modele dla chipsetów Ascend.
- Konfigurować rurociągi do zadań wniosków w czasie rzeczywistym i w partiach.
- Monitorować wdrożenia i dostosowywać wydajność w środowiskach produkcyjnych.
Format kursu
- Interaktywna wykład i dyskusja.
- Ręczne korzystanie z CloudMatrix w prawdziwych scenariuszach wdrażania.
- Zadania prowadzone skupione na konwersji, optymalizacji i skalowaniu.
Opcje dostosowania kursu
- Aby poprosić o dostosowany szkolenie na podstawie Twojej infrastruktury AI lub środowiska chmur, skontaktuj się z nami w celu zorganizowania.
Programowanie na akceleratorach AI Biren
21 godzinAkceleratory AI Biren to wysokowydajne procesory graficzne (GPU) zaprojektowane do obciążeń związanych ze sztuczną inteligencją i obliczeniami wysokiej wydajności (HPC), z obsługą skalowalnego treningu i inferencji.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do programistów na poziomie średniozaawansowanym i zaawansowanym, którzy chcą programować i optymalizować aplikacje przy użyciu własnego stosu GPU Biren, z praktycznymi porównaniami do środowisk opartych na CUDA.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę GPU Biren i hierarchię pamięci.
- Skonfigurować środowisko programistyczne i korzystać z modelu programowania Biren.
- Tłumaczyć i optymalizować kod w stylu CUDA na platformy Biren.
- Stosować techniki dostrajania wydajności i debugowania.
Format kursu
- Interaktywne wykłady i dyskusje.
- Praktyczne wykorzystanie SDK Biren w przykładowych obciążeniach GPU.
- Prowadzone ćwiczenia skupione na przenoszeniu i dostrajaniu wydajności.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie na podstawie potrzeb dotyczących stosu aplikacji lub integracji, skontaktuj się z nami w celu uzgodnienia szczegółów.
Rozwój Cambricon MLU z wykorzystaniem BANGPy i Neuware
21 godzinCambricon MLU (Machine Learning Units) to specjalizowane układy AI zoptymalizowane do wnioskowania i uczenia w scenariuszach brzegowych i centrów danych.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu) jest skierowane do programistów na średnim poziomie zaawansowania, którzy chcą budować i wdrażać modele AI przy użyciu frameworka BANGPy i SDK Neuware na sprzęcie Cambricon MLU.
Pod koniec szkolenia uczestnicy będą mogli:
- Skonfigurować środowiska deweloperskie BANGPy i Neuware.
- Tworzyć i optymalizować modele oparte na Pythonie i C++ dla Cambricon MLU.
- Wdrażać modele na urządzeniach brzegowych i w centrach danych działających na środowisku uruchomieniowym Neuware.
- Integrować przepływy pracy ML z funkcjami przyspieszania specyficznymi dla MLU.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne użycie BANGPy i Neuware do rozwoju i wdrażania.
- Kierowane ćwiczenia skupiające się na optymalizacji, integracji i testowaniu.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie dla tego kursu na podstawie modelu urządzenia Cambricon lub przypadku użycia, prosimy o kontakt w celu uzgodnienia.
Wprowadzenie do CANN dla deweloperów frameworków AI
7 godzinCANN (Compute Architecture for Neural Networks) to zestaw narzędzi do obliczeń AI firmy Huawei, używany do kompilowania, optymalizacji i wdrażania modeli AI na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do początkujących deweloperów AI, którzy chcą zrozumieć, jak CANN wpisuje się w cykl życia modelu od szkolenia do wdrożenia, oraz jak współpracuje z frameworkami takimi jak MindSpore, TensorFlow i PyTorch.
Pod koniec szkolenia uczestnicy będą mogli:
- Zrozumieć cel i architekturę zestawu narzędzi CANN.
- Skonfigurować środowisko deweloperskie z CANN i MindSpore.
- Przekształcić i wdrożyć prosty model AI na sprzęcie Ascend.
- Zdobyć podstawową wiedzę na temat przyszłych projektów optymalizacji lub integracji CANN.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria z prostym wdrażaniem modeli.
- Krok po kroku omówienie łańcucha narzędzi CANN i punktów integracji.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu uzgodnienia szczegółów.
CANN for Edge AI Deployment
14 godzinNarzędzie Ascend CANN od Huawei umożliwia potężne wnioskowanie AI na urządzeniach na krawędzi, takich jak Ascend 310. CANN dostarcza niezbędne narzędzia do kompilowania, optymalizowania i wdrażania modeli w środowiskach o ograniczonych możliwościach obliczeniowych i pamięci.
Ten szkolenie prowadzone przez instruktora (online lub na miejscu) jest przeznaczone dla AI developerów i integratorów na poziomie średnim, którzy chcą wdrażać i optymalizować modele na urządzeniach na krawędzi Ascend przy użyciu narzędzi CANN.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Przygotowywać i konwertować modele AI dla Ascend 310 za pomocą narzędzi CANN.
- Budować lekkie pipeline wnioskowania za pomocą MindSpore Lite i AscendCL.
- Optymalizować wydajność modeli w środowiskach o ograniczonych możliwościach obliczeniowych i pamięci.
- Wdrażać i monitorować aplikacje AI w rzeczywistych przypadkach użycia na krawędzi.
Format kursu
- Interaktywna wykład i demonstracja.
- Praktyczne ćwiczenia laboratoryjne z modelami i scenariuszami specyficznymi dla krawędzi.
- Przykłady wdrażania na żywo na wirtualnym lub fizycznym sprzęcie na krawędzi.
Opcje dostosowania kursu
- Aby zażądać dostosowanego szkolenia dla tego kursu, prosimy o kontakt z nami w celu ustalenia szczegółów.
Zrozumienie stosu obliczeniowego AI Huawei: od CANN do MindSpore
14 godzinStos AI Huawei — od niskopoziomowego SDK CANN do wysokopoziomowego frameworka MindSpore — oferuje zintegrowane środowisko do tworzenia i wdrażania rozwiązań AI, zoptymalizowane pod kątem sprzętu Ascend.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów technicznych na poziomie początkującym i średniozaawansowanym, którzy chcą zrozumieć, jak komponenty CANN i MindSpore współpracują, aby wspierać zarządzanie cyklem życia AI i decyzje dotyczące infrastruktury.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zrozumieć warstwową architekturę stosu obliczeniowego AI Huawei.
- Zidentyfikować, jak CANN wspiera optymalizację modeli i wdrażanie na poziomie sprzętowym.
- Ocenić framework MindSpore i jego narzędzia w porównaniu z alternatywami branżowymi.
- Określić miejsce stosu AI Huawei w środowiskach przedsiębiorstw lub chmury/on-prem.
Format kursu
- Interaktywny wykład i dyskusja.
- Demo systemu na żywo i przykłady oparte na przypadkach.
- Opcjonalne warsztaty z przewodnikiem dotyczące przepływu modeli z MindSpore do CANN.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami.
Optymalizacja wydajności sieci neuronowych z wykorzystaniem CANN SDK
14 godzinCANN SDK (Compute Architecture for Neural Networks) to fundament obliczeniowy sztucznej inteligencji firmy Huawei, który umożliwia programistom dostrajanie i optymalizację wydajności wdrożonych sieci neuronowych na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu), jest skierowane do zaawansowanych programistów AI i inżynierów systemowych, którzy chcą optymalizować wydajność wnioskowania, korzystając z zaawansowanych narzędzi CANN, takich jak Graph Engine, TIK i rozwój niestandardowych operatorów.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę środowiska wykonawczego CANN i cykl życia wydajności.
- Korzystać z narzędzi do profilowania i Graph Engine do analizy i optymalizacji wydajności.
- Tworzyć i optymalizować niestandardowe operatory przy użyciu TIK i TVM.
- Rozwiązywać problemy z wąskimi gardłami pamięci i poprawiać przepustowość modelu.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria z profilowaniem w czasie rzeczywistym i dostrajaniem operatorów.
- Ćwiczenia optymalizacyjne z wykorzystaniem przykładów wdrożeń skrajnych przypadków.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.
CANN SDK dla potoków przetwarzania obrazu i języka naturalnego
14 godzinCANN SDK (Compute Architecture for Neural Networks) oferuje potężne narzędzia do wdrażania i optymalizacji aplikacji AI w czasie rzeczywistym w dziedzinie przetwarzania obrazu i języka naturalnego, szczególnie na sprzęcie Huawei Ascend.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do praktyków AI na poziomie średniozaawansowanym, którzy chcą budować, wdrażać i optymalizować modele wizyjne i językowe przy użyciu CANN SDK w przypadkach użycia produkcyjnego.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Wdrażać i optymalizować modele CV i NLP przy użyciu CANN i AscendCL.
- Korzystać z narzędzi CANN do konwersji modeli i integrowania ich w potoki produkcyjne.
- Optymalizować wydajność wnioskowania dla zadań takich jak detekcja, klasyfikacja i analiza sentymentu.
- Budować potoki CV/NLP w czasie rzeczywistym dla scenariuszy wdrażania na krawędzi lub w chmurze.
Format kursu
- Interaktywny wykład i demonstracja.
- Praktyczne laboratorium z wdrażaniem modeli i profilowaniem wydajności.
- Projektowanie potoków w czasie rzeczywistym na podstawie rzeczywistych przypadków użycia CV i NLP.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
Tworzenie niestandardowych operatorów AI z CANN TIK i TVM
14 godzinCANN TIK (Tensor Instruction Kernel) i Apache TVM umożliwiają zaawansowaną optymalizację i dostosowanie operatorów modeli AI dla sprzętu Huawei Ascend.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do zaawansowanych programistów systemowych, którzy chcą tworzyć, wdrażać i dostrajać niestandardowe operatory dla modeli AI, korzystając z modelu programowania TIK w CANN oraz integracji z kompilatorem TVM.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Pisać i testować niestandardowe operatory AI przy użyciu TIK DSL dla procesorów Ascend.
- Integrować niestandardowe operatory w środowisku wykonawczym CANN i grafie wykonania.
- Korzystać z TVM do planowania, automatycznego dostrajania i benchmarkowania operatorów.
- Debugować i optymalizować wydajność na poziomie instrukcji dla niestandardowych wzorców obliczeniowych.
Format kursu
- Interaktywny wykład i demonstracja.
- Praktyczne kodowanie operatorów przy użyciu potoków TIK i TVM.
- Testowanie i dostrajanie na sprzęcie Ascend lub symulatorach.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
Migracja aplikacji CUDA na chińskie architektury GPU
21 godzinChińskie architektury GPU, takie jak Huawei Ascend, Biren i Cambricon MLU, oferują alternatywy dla CUDA dostosowane do lokalnych rynków AI i HPC.
To szkolenie prowadzone przez instruktora na żywo (online lub na miejscu) jest skierowane do zaawansowanych programistów GPU i specjalistów od infrastruktury, którzy chcą migrować i optymalizować istniejące aplikacje CUDA do wdrożenia na chińskich platformach sprzętowych.
Pod koniec szkolenia uczestnicy będą mogli:
- Ocenić kompatybilność istniejących obciążeń CUDA z chińskimi alternatywami układów.
- Przenosić bazy kodu CUDA na środowiska Huawei CANN, Biren SDK i Cambricon BANGPy.
- Porównywać wydajność i identyfikować punkty optymalizacji na różnych platformach.
- Radzić sobie z praktycznymi wyzwaniami związanymi z obsługą i wdrażaniem między architekturami.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria tłumaczenia kodu i porównywania wydajności.
- Kierowane ćwiczenia skupione na strategiach adaptacji wieloprocesorowych GPU.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie na podstawie Twojej platformy lub projektu CUDA, skontaktuj się z nami w celu ustalenia szczegółów.
Optymalizacja wydajności na platformach Ascend, Biren i Cambricon
21 godzinAscend, Biren i Cambricon to wiodące platformy sprzętowe AI w Chinach, oferujące unikalne narzędzia do przyspieszania i profilowania na potrzeby produkcji na dużą skalę w obszarze obciążeń AI.
Ten prowadzony przez instruktora, żywy trening (online lub na miejscu) skierowany jest do zaawansowanych inżynierów infrastruktury AI i wydajności, którzy chcą optymalizować procesy wnioskowania i trenowania modeli na wielu chińskich platformach chipów AI.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Testować modele na platformach Ascend, Biren i Cambricon.
- Identyfikować wąskie gardła systemowe i nieefektywności pamięci/obliczeń.
- Stosować optymalizacje na poziomie grafu, jądra i operatora.
- Dostosowywać potoki wdrożeniowe w celu poprawy przepustowości i opóźnienia.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne wykorzystanie narzędzi profilowania i optymalizacji na każdej platformie.
- Prowadzone ćwiczenia skupione na praktycznych scenariuszach dostosowywania.
Opcje dostosowania kursu
- Aby zamówić dostosowany trening na podstawie środowiska wydajnościowego lub typu modelu, skontaktuj się z nami w celu uzgodnienia.