Programowanie GPU AMD - Plan Szkolenia
ROCm to otwarta platforma do programowania GPU, która obsługuje procesory graficzne AMD, a także zapewnia kompatybilność z CUDA i OpenCL. ROCm umożliwia programistom dostęp do szczegółów sprzętowych i daje pełną kontrolę nad procesem równoległym. Jednak wymaga to również dobrego zrozumienia architektury urządzenia, modelu pamięci, modelu wykonania oraz technik optymalizacji.
HIP to interfejs API czasu wykonania C++ oraz język jąder, który pozwala na pisanie przenośnego kodu, który może działać zarówno na GPU AMD, jak i NVIDIA. HIP zapewnia cienką warstwę abstrakcji nad natywnymi interfejsami API GPU, takimi jak ROCm i CUDA, oraz umożliwia wykorzystanie istniejących bibliotek i narzędzi GPU.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do programistów na poziomie początkującym i średniozaawansowanym, którzy chcą wykorzystać ROCm i HIP do programowania GPU AMD i wykorzystania ich równoległości.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Skonfigurować środowisko programistyczne obejmujące platformę ROCm, procesor graficzny AMD oraz Visual Studio Code.
- Stworzyć podstawowy program ROCm, który wykonuje dodawanie wektorów na GPU i pobiera wyniki z pamięci GPU.
- Używać interfejsu API ROCm do odpytywania o informacje o urządzeniu, alokowania i zwalniania pamięci urządzenia, kopiowania danych między hostem a urządzeniem, uruchamiania jąder i synchronizacji wątków.
- Używać języka HIP do pisania jąder wykonywanych na GPU i manipulowania danymi.
- Używać wbudowanych funkcji, zmiennych i bibliotek HIP do wykonywania typowych zadań i operacji.
- Używać przestrzeni pamięci ROCm i HIP, takich jak globalna, współdzielona, stała i lokalna, aby optymalizować transfery danych i dostęp do pamięci.
- Używać modeli wykonania ROCm i HIP do kontrolowania wątków, bloków i siatek, które definiują równoległość.
- Debugować i testować programy ROCm i HIP za pomocą narzędzi takich jak ROCm Debugger i ROCm Profiler.
- Optymalizować programy ROCm i HIP za pomocą technik takich jak łączenie, buforowanie, pobieranie z wyprzedzeniem i profilowanie.
Format kursu
- Interaktywne wykłady i dyskusje.
- Wiele ćwiczeń i praktyki.
- Praktyczna implementacja w środowisku live-lab.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu ustalenia szczegółów.
Plan Szkolenia
Wprowadzenie
- Czym jest ROCm?
- Czym jest HIP?
- ROCm vs CUDA vs OpenCL
- Przegląd funkcji i architektury ROCm i HIP
- Konfiguracja środowiska programistycznego
Rozpoczęcie pracy
- Tworzenie nowego projektu ROCm za pomocą Visual Studio Code
- Eksploracja struktury projektu i plików
- Kompilowanie i uruchamianie programu
- Wyświetlanie wyników za pomocą printf i fprintf
Interfejs API ROCm
- Zrozumienie roli interfejsu API ROCm w programie hosta
- Użycie interfejsu API ROCm do odpytywania o informacje i możliwości urządzenia
- Użycie interfejsu API ROCm do alokowania i zwalniania pamięci urządzenia
- Użycie interfejsu API ROCm do kopiowania danych między hostem a urządzeniem
- Użycie interfejsu API ROCm do uruchamiania jąder i synchronizacji wątków
- Użycie interfejsu API ROCm do obsługi błędów i wyjątków
Język HIP
- Zrozumienie roli języka HIP w programie urządzenia
- Użycie języka HIP do pisania jąder wykonywanych na GPU i manipulowania danymi
- Użycie typów danych, kwalifikatorów, operatorów i wyrażeń HIP
- Użycie wbudowanych funkcji, zmiennych i bibliotek HIP do wykonywania typowych zadań i operacji
Model pamięci ROCm i HIP
- Zrozumienie różnicy między modelami pamięci hosta i urządzenia
- Użycie przestrzeni pamięci ROCm i HIP, takich jak globalna, współdzielona, stała i lokalna
- Użycie obiektów pamięci ROCm i HIP, takich jak wskaźniki, tablice, tekstury i powierzchnie
- Użycie trybów dostępu do pamięci ROCm i HIP, takich jak tylko do odczytu, tylko do zapisu, odczyt-zapis itp.
- Użycie modelu spójności pamięci ROCm i HIP oraz mechanizmów synchronizacji
Model wykonania ROCm i HIP
- Zrozumienie różnicy między modelami wykonania hosta i urządzenia
- Użycie wątków, bloków i siatek ROCm i HIP do definiowania równoległości
- Użycie funkcji wątków ROCm i HIP, takich jak hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x itp.
- Użycie funkcji bloków ROCm i HIP, takich jak __syncthreads, __threadfence_block itp.
- Użycie funkcji siatek ROCm i HIP, takich jak hipGridDim_x, hipGridSync, grupy współpracujące itp.
Debugowanie
- Zrozumienie typowych błędów i błędów w programach ROCm i HIP
- Użycie debuggera Visual Studio Code do inspekcji zmiennych, punktów przerwania, stosu wywołań itp.
- Użycie ROCm Debugger do debugowania programów ROCm i HIP na urządzeniach AMD
- Użycie ROCm Profiler do analizy programów ROCm i HIP na urządzeniach AMD
Optymalizacja
- Zrozumienie czynników wpływających na wydajność programów ROCm i HIP
- Użycie technik łączenia ROCm i HIP w celu poprawy przepustowości pamięci
- Użycie technik buforowania i pobierania z wyprzedzeniem ROCm i HIP w celu zmniejszenia opóźnień pamięci
- Użycie technik pamięci współdzielonej i lokalnej ROCm i HIP w celu optymalizacji dostępu do pamięci i przepustowości
- Użycie narzędzi profilowania ROCm i HIP do pomiaru i poprawy czasu wykonania oraz wykorzystania zasobów
Podsumowanie i kolejne kroki
Wymagania
- Zrozumienie języka C/C++ oraz koncepcji programowania równoległego
- Podstawowa wiedza na temat architektury komputera i hierarchii pamięci
- Doświadczenie w korzystaniu z narzędzi wiersza poleceń i edytorów kodu
Grupa docelowa
- Programiści, którzy chcą nauczyć się, jak używać ROCm i HIP do programowania GPU AMD i wykorzystania ich równoległości
- Programiści, którzy chcą pisać wydajny i skalowalny kod, który może działać na różnych urządzeniach AMD
- Programiści, którzy chcą zgłębić niskopoziomowe aspekty programowania GPU i optymalizować wydajność swojego kodu
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Programowanie GPU AMD - Plan Szkolenia - Rezerwacja
Programowanie GPU AMD - Plan Szkolenia - Zapytanie
Programowanie GPU AMD - Zapytanie o Konsultacje
Propozycje terminów
Szkolenia Powiązane
Tworzenie aplikacji AI z wykorzystaniem Huawei Ascend i CANN
21 godzinHuawei Ascend to rodzina procesorów AI zaprojektowanych do wysokowydajnego wnioskowania i trenowania modeli.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do inżynierów AI i naukowców zajmujących się danymi na poziomie średnio zaawansowanym, którzy chcą rozwijać i optymalizować modele sieci neuronowych przy użyciu platformy Huawei Ascend oraz zestawu narzędzi CANN.
Po zakończeniu szkolenia uczestnicy będą w stanie:
- Skonfigurować środowisko deweloperskie CANN.
- Tworzyć aplikacje AI przy użyciu MindSpore i przepływów pracy CloudMatrix.
- Optymalizować wydajność na procesorach NPU Ascend przy użyciu niestandardowych operatorów i tilingu.
- Wdrażać modele w środowiskach brzegowych lub chmurowych.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne wykorzystanie Huawei Ascend i zestawu narzędzi CANN w przykładowych aplikacjach.
- Ćwiczenia z przewodnikiem skupione na budowaniu, trenowaniu i wdrażaniu modeli.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie na podstawie swojej infrastruktury lub zbiorów danych, skontaktuj się z nami.
Wdrażanie modeli AI z wykorzystaniem CANN i procesorów Ascend AI
14 godzinCANN (Compute Architecture for Neural Networks) to stos obliczeniowy AI firmy Huawei do wdrażania i optymalizacji modeli AI na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu) jest skierowane do średniozaawansowanych programistów i inżynierów AI, którzy chcą efektywnie wdrażać wytrenowane modele AI na sprzęcie Huawei Ascend przy użyciu zestawu narzędzi CANN oraz narzędzi takich jak MindSpore, TensorFlow czy PyTorch.
Po zakończeniu szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę CANN i jej rolę w procesie wdrażania AI.
- Konwertować i adaptować modele z popularnych frameworków do formatów zgodnych z Ascend.
- Korzystać z narzędzi takich jak ATC, konwersja modeli OM i MindSpore do wnioskowania na urządzeniach brzegowych i w chmurze.
- Diagnozować problemy związane z wdrażaniem i optymalizować wydajność na sprzęcie Ascend.
Format kursu
- Interaktywny wykład i demonstracja.
- Praktyczne ćwiczenia z wykorzystaniem narzędzi CANN i symulatorów lub urządzeń Ascend.
- Praktyczne scenariusze wdrażania oparte na rzeczywistych modelach AI.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami w celu uzgodnienia szczegółów.
AI Inference and Deployment with CloudMatrix
21 godzinCloudMatrix jest zunifikowaną platformą Huawei do rozwoju i wdrażania sztucznej inteligencji, zaprojektowaną do obsługi skalowalnych, produkcyjnych wniosków.
Ten prowadzony przez instruktora kurs (online lub na miejscu) jest skierowany do AI profesjonalistów o poziomie początkującego do średniozaawansowanego, którzy chcą wdrażać i monitorować modele AI za pomocą platformy CloudMatrix z integracją CANN i MindSpore.
Po zakończeniu tego kursu uczestnicy będą w stanie:
- Używać CloudMatrix do pakowania, wdrażania i serwowania modeli.
- Konwertować i optymalizować modele dla chipsetów Ascend.
- Konfigurować rurociągi do zadań wniosków w czasie rzeczywistym i w partiach.
- Monitorować wdrożenia i dostosowywać wydajność w środowiskach produkcyjnych.
Format kursu
- Interaktywna wykład i dyskusja.
- Ręczne korzystanie z CloudMatrix w prawdziwych scenariuszach wdrażania.
- Zadania prowadzone skupione na konwersji, optymalizacji i skalowaniu.
Opcje dostosowania kursu
- Aby poprosić o dostosowany szkolenie na podstawie Twojej infrastruktury AI lub środowiska chmur, skontaktuj się z nami w celu zorganizowania.
GPU Programming na Akceleratorach AI Biren
21 godzinAkceleratory AI Biren są wysokowydajnymi GPUs zaprojektowanymi dla obciążeń AI i HPC z wsparciem dla dużych skalowania uczenia i wnioskowania.
To prowadzone przez instruktora szkolenie na żywo (online lub na miejscu) jest przeznaczone dla programistów średnio zaawansowanych do zaawansowanych, którzy chcą programować i optymalizować aplikacje za pomocą własnej technologii Biren GPU stack, z praktycznymi porównaniami do środowisk opartych na CUDA.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę i hierarchię pamięci Biren GPU.
- Zainstalować środowisko rozwojowe i używać modelu programowania Biren.
- Przetłumaczyć i optymalizować kod w stylu CUDA dla platform Biren.
- Zastosować techniki optymalizacji wydajności i debugowania.
Format kursu
- Interaktywne wykłady i dyskusje.
- Ręczne używanie Biren SDK w przykładowych obciążeniach GPU.
- Zadaniami kierowanymi z koncentracją na przenoszeniu i optymalizacji wydajności.
Opcje dostosowania kursu
- Aby poprosić o dostosowane szkolenie dla tego kursu na podstawie swojego stosu aplikacji lub potrzeb integracji, skontaktuj się z nami w celu uzgodnienia.
Cambricon MLU Development with BANGPy and Neuware
21 godzinCambricon MLUs (Machine Learning jednostki) to specjalizowane układy AI optymalizowane do wnioskowania i szkolenia w scenariuszach na krawędzi i w centrach danych.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest przeznaczone dla developerów na poziomie średnim, którzy chcą budować i wdrażać modele AI za pomocą frameworka BANGPy i SDK Neuware na sprzęcie Cambricon MLU.
Po zakończeniu tego szkolenia uczestnicy będą mogli:
- Konfigurować i ustawiać środowiska rozwojowe BANGPy i Neuware.
- Rozwijać i optymalizować modele oparte na Python i C++ dla Cambricon MLU.
- Wdrażać modele na urządzeniach na krawędzi i w centrum danych z uruchomionym środowiskiem wykonawczym Neuware.
- Integrować przepływy pracy ML z funkcjami przyspieszenia specyficznymi dla MLU.
Format kursu
- Interaktywna wykład i dyskusja.
- Praktyczne używanie BANGPy i Neuware do rozwoju i wdrażania.
- Zawarte ćwiczenia skupione na optymalizacji, integracji i testowaniu.
Opcje dostosowywania kursu
- Aby zlecić dostosowane szkolenie dla tego kursu na podstawie modelu urządzenia Cambricon lub przypadku użycia, prosimy o kontakt z nami w celu ustalenia.
Wprowadzenie do CANN dla deweloperów frameworków AI
7 godzinCANN (Compute Architecture for Neural Networks) to zestaw narzędzi do obliczeń AI firmy Huawei, używany do kompilowania, optymalizacji i wdrażania modeli AI na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do początkujących deweloperów AI, którzy chcą zrozumieć, jak CANN wpisuje się w cykl życia modelu od szkolenia do wdrożenia, oraz jak współpracuje z frameworkami takimi jak MindSpore, TensorFlow i PyTorch.
Pod koniec szkolenia uczestnicy będą mogli:
- Zrozumieć cel i architekturę zestawu narzędzi CANN.
- Skonfigurować środowisko deweloperskie z CANN i MindSpore.
- Przekształcić i wdrożyć prosty model AI na sprzęcie Ascend.
- Zdobyć podstawową wiedzę na temat przyszłych projektów optymalizacji lub integracji CANN.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria z prostym wdrażaniem modeli.
- Krok po kroku omówienie łańcucha narzędzi CANN i punktów integracji.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, prosimy o kontakt w celu uzgodnienia szczegółów.
CANN for Edge AI Deployment
14 godzinNarzędzie Ascend CANN od Huawei umożliwia potężne wnioskowanie AI na urządzeniach na krawędzi, takich jak Ascend 310. CANN dostarcza niezbędne narzędzia do kompilowania, optymalizowania i wdrażania modeli w środowiskach o ograniczonych możliwościach obliczeniowych i pamięci.
Ten szkolenie prowadzone przez instruktora (online lub na miejscu) jest przeznaczone dla AI developerów i integratorów na poziomie średnim, którzy chcą wdrażać i optymalizować modele na urządzeniach na krawędzi Ascend przy użyciu narzędzi CANN.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Przygotowywać i konwertować modele AI dla Ascend 310 za pomocą narzędzi CANN.
- Budować lekkie pipeline wnioskowania za pomocą MindSpore Lite i AscendCL.
- Optymalizować wydajność modeli w środowiskach o ograniczonych możliwościach obliczeniowych i pamięci.
- Wdrażać i monitorować aplikacje AI w rzeczywistych przypadkach użycia na krawędzi.
Format kursu
- Interaktywna wykład i demonstracja.
- Praktyczne ćwiczenia laboratoryjne z modelami i scenariuszami specyficznymi dla krawędzi.
- Przykłady wdrażania na żywo na wirtualnym lub fizycznym sprzęcie na krawędzi.
Opcje dostosowania kursu
- Aby zażądać dostosowanego szkolenia dla tego kursu, prosimy o kontakt z nami w celu ustalenia szczegółów.
Zrozumienie stosu obliczeniowego AI Huawei: od CANN do MindSpore
14 godzinStos AI Huawei — od niskopoziomowego SDK CANN do wysokopoziomowego frameworka MindSpore — oferuje zintegrowane środowisko do tworzenia i wdrażania rozwiązań AI, zoptymalizowane pod kątem sprzętu Ascend.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest skierowane do specjalistów technicznych na poziomie początkującym i średniozaawansowanym, którzy chcą zrozumieć, jak komponenty CANN i MindSpore współpracują, aby wspierać zarządzanie cyklem życia AI i decyzje dotyczące infrastruktury.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zrozumieć warstwową architekturę stosu obliczeniowego AI Huawei.
- Zidentyfikować, jak CANN wspiera optymalizację modeli i wdrażanie na poziomie sprzętowym.
- Ocenić framework MindSpore i jego narzędzia w porównaniu z alternatywami branżowymi.
- Określić miejsce stosu AI Huawei w środowiskach przedsiębiorstw lub chmury/on-prem.
Format kursu
- Interaktywny wykład i dyskusja.
- Demo systemu na żywo i przykłady oparte na przypadkach.
- Opcjonalne warsztaty z przewodnikiem dotyczące przepływu modeli z MindSpore do CANN.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie, skontaktuj się z nami.
Optymalizacja wydajności sieci neuronowych z wykorzystaniem CANN SDK
14 godzinCANN SDK (Compute Architecture for Neural Networks) to fundament obliczeniowy sztucznej inteligencji firmy Huawei, który umożliwia programistom dostrajanie i optymalizację wydajności wdrożonych sieci neuronowych na procesorach Ascend AI.
To szkolenie prowadzone przez instruktora, na żywo (online lub na miejscu), jest skierowane do zaawansowanych programistów AI i inżynierów systemowych, którzy chcą optymalizować wydajność wnioskowania, korzystając z zaawansowanych narzędzi CANN, takich jak Graph Engine, TIK i rozwój niestandardowych operatorów.
Pod koniec szkolenia uczestnicy będą w stanie:
- Zrozumieć architekturę środowiska wykonawczego CANN i cykl życia wydajności.
- Korzystać z narzędzi do profilowania i Graph Engine do analizy i optymalizacji wydajności.
- Tworzyć i optymalizować niestandardowe operatory przy użyciu TIK i TVM.
- Rozwiązywać problemy z wąskimi gardłami pamięci i poprawiać przepustowość modelu.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria z profilowaniem w czasie rzeczywistym i dostrajaniem operatorów.
- Ćwiczenia optymalizacyjne z wykorzystaniem przykładów wdrożeń skrajnych przypadków.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.
CANN SDK dla potoków wizji komputerowej i przetwarzania języka naturalnego
14 godzinCANN SDK (Compute Architecture for Neural Networks) oferuje potężne narzędzia do wdrażania i optymalizacji aplikacji AI w czasie rzeczywistym dla wizji komputerowej i przetwarzania języka naturalnego, szczególnie na sprzęcie Huawei Ascend.
Ta prowadzona przez instruktora szkolenia na żywo (online lub stacjonarnie) jest skierowana do pośrednio zaawansowanych praktyków AI, którzy chcą tworzyć, wdrażać i optymalizować modele wizji i języka przy użyciu CANN SDK dla przypadków produkcyjnych.
Na końcu tego szkolenia uczestnicy będą w stanie:
- Wdrażać i optymalizować modele CV i NLP przy użyciu CANN i AscendCL.
- Korzystać z narzędzi CANN do konwertowania modeli i integrowania ich w potoki na żywo.
- Optymalizować wydajność wnioskowania dla zadań takich jak detekcja, klasyfikacja i analiza sentymentu.
- Tworzyć potoki CV/NLP w czasie rzeczywistym dla scenariuszy wdrożenia na brzegu lub w chmurze.
Format kursu
- Interaktywna prezentacja i pokaz.
- Praktyczne laboratorium z wdrażaniem modeli i profilowaniem wydajności.
- Projektowanie potoków na żywo przy użyciu prawdziwych przypadków CV i NLP.
Opcje dostosowywania kursu
- Aby zapytać o dostosowane szkolenie dla tego kursu, prosimy skontaktować się z nami, aby uzgodnić szczegóły.
Budowanie niestandardowych operacji AI z CANN TIK i TVM
14 godzinCANN TIK (Tensor Instruction Kernel) i Apache TVM umożliwiają zaawansowaną optymalizację i dostosowanie operatorów modeli AI dla Huawei Ascend sprzętu.
To szkolenie prowadzone przez instruktora (online lub na miejscu) jest przeznaczone dla zaawansowanych programistów systemowych, którzy chcą budować, wdrażać i dostrajać niestandardowe operatory dla modeli AI za pomocą modelu programowania TIK firmy CANN i integracji z kompilatorem TVM.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Pisanie i testowanie niestandardowych operatorów AI za pomocą TIK DSL dla procesorów Ascend.
- Integrowanie niestandardowych operacji z czasem wykonania CANN i wykresem wykonania.
- Używanie TVM do planowania operatorów, automatycznego dostrajania i testowania wydajności.
- Debugowanie i optymalizowanie wydajności poziomu instrukcji dla niestandardowych wzorców obliczeń.
Format kursu
- Interaktywna lekcja i demonstracja.
- Ręczne programowanie operatorów za pomocą TIK i pipeline TVM.
- Testowanie i dostrajanie na sprzęcie Ascend lub symulatorach.
Opcje dostosowywania kursu
- Aby zapytać o dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia.
Migracja aplikacji CUDA na chińskie architektury GPU
21 godzinChińskie architektury GPU, takie jak Huawei Ascend, Biren i Cambricon MLU, oferują alternatywy dla CUDA dostosowane do lokalnych rynków AI i HPC.
To szkolenie prowadzone przez instruktora na żywo (online lub na miejscu) jest skierowane do zaawansowanych programistów GPU i specjalistów od infrastruktury, którzy chcą migrować i optymalizować istniejące aplikacje CUDA do wdrożenia na chińskich platformach sprzętowych.
Pod koniec szkolenia uczestnicy będą mogli:
- Ocenić kompatybilność istniejących obciążeń CUDA z chińskimi alternatywami układów.
- Przenosić bazy kodu CUDA na środowiska Huawei CANN, Biren SDK i Cambricon BANGPy.
- Porównywać wydajność i identyfikować punkty optymalizacji na różnych platformach.
- Radzić sobie z praktycznymi wyzwaniami związanymi z obsługą i wdrażaniem między architekturami.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne laboratoria tłumaczenia kodu i porównywania wydajności.
- Kierowane ćwiczenia skupione na strategiach adaptacji wieloprocesorowych GPU.
Opcje dostosowania kursu
- Aby zamówić dostosowane szkolenie na podstawie Twojej platformy lub projektu CUDA, skontaktuj się z nami w celu ustalenia szczegółów.
Optymalizacja wydajności na platformach Ascend, Biren i Cambricon
21 godzinAscend, Biren i Cambricon to wiodące platformy sprzętowe AI w Chinach, oferujące unikalne narzędzia do przyspieszania i profilowania na potrzeby produkcji na dużą skalę w obszarze obciążeń AI.
Ten prowadzony przez instruktora, żywy trening (online lub na miejscu) skierowany jest do zaawansowanych inżynierów infrastruktury AI i wydajności, którzy chcą optymalizować procesy wnioskowania i trenowania modeli na wielu chińskich platformach chipów AI.
Po zakończeniu szkolenia uczestnicy będą mogli:
- Testować modele na platformach Ascend, Biren i Cambricon.
- Identyfikować wąskie gardła systemowe i nieefektywności pamięci/obliczeń.
- Stosować optymalizacje na poziomie grafu, jądra i operatora.
- Dostosowywać potoki wdrożeniowe w celu poprawy przepustowości i opóźnienia.
Format kursu
- Interaktywny wykład i dyskusja.
- Praktyczne wykorzystanie narzędzi profilowania i optymalizacji na każdej platformie.
- Prowadzone ćwiczenia skupione na praktycznych scenariuszach dostosowywania.
Opcje dostosowania kursu
- Aby zamówić dostosowany trening na podstawie środowiska wydajnościowego lub typu modelu, skontaktuj się z nami w celu uzgodnienia.