Lokalne, prowadzone przez instruktora kursy szkoleniowe na żywo dotyczące GPU (Graphics Processing Unit) demonstrują poprzez interaktywną dyskusję i praktyczne ćwiczenie podstaw GPU i programowania GPU. Szkolenie GPU jest dostępne jako "szkolenie online na żywo" lub "szkolenie na żywo na miejscu". Szkolenie na żywo online (inaczej "zdalne szkolenie na żywo") odbywa się za pomocą interaktywnego, zdalnego pulpitu . Szkolenie na żywo na miejscu może odbywać się lokalnie w siedzibie klienta w Szczecin lub w korporacyjnych centrach szkoleniowych NobleProg w Szczecin. NobleProg — Twój lokalny dostawca szkoleń
Szczecin
Biuro Aloha, Jerzego Janosika 17, Szczecin, Polska, 71-424
Sala szkoleniowa jest w pełni wyposażona, zapewniając wszystkie niezbędne udogodnienia dla uczestników. Dodatkowo, posiada atrakcyjne połączenia komunikacyjne ze wszystkimi strategicznymi punktami miasta, co ułatwia dotarcie do niej zarówno dla mieszkańców, jak i osób spoza miasta. Znajduje się zaledwie 3 kilometry od centrum, co umożliwia szybki dostęp do innych ważnych lokalizacji miejskich i udogodnień.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą używać OpenACC do programowania heterogenicznych urządzeń i wykorzystywania ich równoległości.
Pod koniec tego szkolenia uczestnicy będą w stanie
Skonfigurować środowisko programistyczne, które obejmuje OpenACC SDK, urządzenie obsługujące OpenACC i Visual Studio Code.
Utworzyć podstawowy program OpenACC, który wykonuje dodawanie wektorowe na urządzeniu i pobiera wyniki z pamięci urządzenia.
Użyj dyrektyw i klauzul OpenACC, aby dodać adnotacje do kodu i określić regiony równoległe, ruch danych i opcje optymalizacji.
Używanie interfejsu API OpenACC do odpytywania informacji o urządzeniu, ustawiania numeru urządzenia, obsługi błędów i synchronizacji zdarzeń.
Korzystanie z bibliotek OpenACC i funkcji interoperacyjności w celu integracji OpenACC z innymi modelami programowania, takimi jak CUDA, OpenMP i MPI.
Używanie narzędzi OpenACC do profilowania i debugowania programów OpenACC oraz identyfikowania wąskich gardeł i możliwości związanych z wydajnością.
Optymalizacja programów OpenACC przy użyciu technik takich jak lokalność danych, fuzja pętli, fuzja jądra i automatyczne dostrajanie.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą nauczyć się podstaw programowania GPU oraz głównych frameworków i narzędzi do tworzenia aplikacji GPU.
Pod koniec tego szkolenia uczestnicy będą w stanie Zrozumieć różnicę między procesorem a GPU obliczeniowym oraz korzyści i wyzwania związane z programowaniem GPU.
Wybrać odpowiedni framework i narzędzie dla swojej aplikacji GPU.
Stworzyć podstawowy program GPU, który wykonuje dodawanie wektorowe przy użyciu jednego lub więcej frameworków i narzędzi.
Korzystanie z odpowiednich interfejsów API, języków i bibliotek w celu wyszukiwania informacji o urządzeniu, przydzielania i zwalniania pamięci urządzenia, kopiowania danych między hostem a urządzeniem, uruchamiania jądra i synchronizowania wątków.
Korzystanie z odpowiednich przestrzeni pamięci, takich jak globalna, lokalna, stała i prywatna, w celu optymalizacji transferu danych i dostępu do pamięci.
Korzystanie z odpowiednich modeli wykonania, takich jak elementy robocze, grupy robocze, wątki, bloki i siatki, w celu kontrolowania równoległości.
Debugowanie i testowanie programów GPU przy użyciu narzędzi takich jak CodeXL, CUDA-GDB, CUDA-MEMCHECK i NVIDIA Nsight.
Optymalizacja programów GPU przy użyciu technik takich jak koalescencja, buforowanie, prefetching i profilowanie.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą korzystać z różnych frameworków do programowania GPU i porównywać ich funkcje, wydajność i kompatybilność.
Pod koniec tego szkolenia uczestnicy będą mogli
Skonfigurować środowisko programistyczne, które obejmuje OpenCL SDK, CUDA Toolkit, platformę ROCm, urządzenie obsługujące OpenCL, CUDA lub ROCm oraz Visual Studio kod.
Utwórz podstawowy program GPU, który wykonuje dodawanie wektorowe przy użyciu OpenCL, CUDA i ROCm oraz porównaj składnię, strukturę i wykonanie każdego z frameworków.
Użyj odpowiednich interfejsów API do wyszukiwania informacji o urządzeniu, przydzielania i zwalniania pamięci urządzenia, kopiowania danych między hostem a urządzeniem, uruchamiania jądra i synchronizowania wątków.
Używanie odpowiednich języków do pisania jąder, które wykonują się na urządzeniu i manipulują danymi.
Używanie odpowiednich wbudowanych funkcji, zmiennych i bibliotek do wykonywania typowych zadań i operacji.
Korzystanie z odpowiednich przestrzeni pamięci, takich jak globalna, lokalna, stała i prywatna, w celu optymalizacji transferu danych i dostępu do pamięci.
Używanie odpowiednich modeli wykonania do kontrolowania wątków, bloków i siatek, które definiują równoległość.
Debugowanie i testowanie programów GPU przy użyciu narzędzi takich jak CodeXL, CUDA-GDB, CUDA-MEMCHECK i NVIDIA Nsight.
Optymalizować programy GPU przy użyciu technik takich jak koalescencja, buforowanie, prefetching i profilowanie.
CloudMatrix jest platformą Huawei przeznaczona do zunifikowanego rozwoju i wdrażania AI, zaprojektowaną w celu wspierania skalowalnych, produkcyjnych wniosków.
To szkolenie prowadzone przez instruktora (online lub stacjonarne) jest skierowane do początkujących do średnio zaawansowanych profesjonalistów w dziedzinie AI, którzy chcą wdrażać i monitorować modele AI przy użyciu platformy CloudMatrix z integracją CANN i MindSpore.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
* Używać CloudMatrix do pakowania, wdrażania i obsługi modeli.
* Konwertować i optymalizować modele dla układów Ascend.
* Konfigurować wnioski dla zadań w czasie rzeczywistym i w partiach.
* Monitorować wdrażanie i dostrajać wydajność w środowiskach produkcyjnych.
Format Kursu
* Interaktywna wykład i dyskusja.
* Praktyczne wykorzystanie CloudMatrix z realnymi scenariuszami wdrażania.
* Ćwiczenia z przewodnikiem skupione na konwersji, optymalizacji i skalowaniu.
Opcje Personalizacji Kursu
* Aby poprosić o personalizowane szkolenie dla tego kursu na podstawie Twojej infrastruktury AI lub środowiska chmurowego, prosimy o kontakt, aby umówić się.
Szkolenie na żywo prowadzone przez instruktora w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą zainstalować i używać ROCm w systemie Windows do programowania procesorów AMD GPU i wykorzystywania ich równoległości.
Pod koniec tego szkolenia uczestnicy będą w stanie
Skonfigurować środowisko programistyczne, które obejmuje platformę ROCm, procesor AMD GPU i Visual Studio Code w systemie Windows.
Stworzyć podstawowy program ROCm, który wykonuje dodawanie wektorowe na GPU i pobiera wyniki z pamięci GPU.
Użyj interfejsu API ROCm, aby uzyskać informacje o urządzeniu, przydzielić i zwolnić pamięć urządzenia, skopiować dane między hostem a urządzeniem, uruchomić jądra i zsynchronizować wątki.
Używanie języka HIP do pisania jąder, które wykonują się na GPU i manipulują danymi.
Używanie wbudowanych funkcji, zmiennych i bibliotek HIP do wykonywania typowych zadań i operacji.
Używanie przestrzeni pamięci ROCm i HIP, takich jak globalna, współdzielona, stała i lokalna, w celu optymalizacji transferu danych i dostępu do pamięci.
Używanie modeli wykonania ROCm i HIP do kontrolowania wątków, bloków i siatek, które definiują równoległość.
Debugowanie i testowanie programów ROCm i HIP przy użyciu narzędzi takich jak ROCm Debugger i ROCm Profiler.
Optymalizacja programów ROCm i HIP przy użyciu technik takich jak koalescencja, buforowanie, wstępne pobieranie i profilowanie.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą używać ROCm i HIP do programowania procesorów AMD GPU i wykorzystywania ich równoległości.
Pod koniec tego szkolenia uczestnicy będą w stanie
Skonfigurować środowisko programistyczne, które obejmuje platformę ROCm, procesor AMD GPU i Visual Studio Code.
Stworzyć podstawowy program ROCm, który wykonuje dodawanie wektorowe na GPU i pobiera wyniki z pamięci GPU.
Użyj interfejsu API ROCm, aby zapytać o informacje o urządzeniu, przydzielić i zwolnić pamięć urządzenia, skopiować dane między hostem a urządzeniem, uruchomić jądra i zsynchronizować wątki.
Używanie języka HIP do pisania jąder, które wykonują się na GPU i manipulują danymi.
Używanie wbudowanych funkcji, zmiennych i bibliotek HIP do wykonywania typowych zadań i operacji.
Używanie przestrzeni pamięci ROCm i HIP, takich jak globalna, współdzielona, stała i lokalna, w celu optymalizacji transferu danych i dostępu do pamięci.
Używanie modeli wykonania ROCm i HIP do kontrolowania wątków, bloków i siatek, które definiują równoległość.
Debugowanie i testowanie programów ROCm i HIP przy użyciu narzędzi takich jak ROCm Debugger i ROCm Profiler.
Optymalizacja programów ROCm i HIP przy użyciu technik takich jak koalescencja, buforowanie, wstępne pobieranie i profilowanie.
Ascend, Biren, and Cambricon are leading AI hardware platforms in China, each offering unique acceleration and profiling tools for production-scale AI workloads.
This instructor-led, live training (online or onsite) is aimed at advanced-level AI infrastructure and performance engineers who wish to optimize model inference and training workflows across multiple Chinese AI chip platforms.
By the end of this training, participants will be able to:
Benchmark models on Ascend, Biren, and Cambricon platforms.
Identify system bottlenecks and memory/compute inefficiencies.
Apply graph-level, kernel-level, and operator-level optimizations.
Tune deployment pipelines to improve throughput and latency.
Format of the Course
Interactive lecture and discussion.
Hands-on use of profiling and optimization tools on each platform.
Guided exercises focused on practical tuning scenarios.
Course Customization Options
To request a customized training for this course based on your performance environment or model type, please contact us to arrange.
Chinese GPU architectures such as Huawei Ascend, Biren, and Cambricon MLUs offer CUDA alternatives tailored for local AI and HPC markets.
This instructor-led, live training (online or onsite) is aimed at advanced-level GPU programmers and infrastructure specialists who wish to migrate and optimize existing CUDA applications for deployment on Chinese hardware platforms.
By the end of this training, participants will be able to:
Evaluate compatibility of existing CUDA workloads with Chinese chip alternatives.
Port CUDA codebases to Huawei CANN, Biren SDK, and Cambricon BANGPy environments.
Compare performance and identify optimization points across platforms.
Address practical challenges in cross-architecture support and deployment.
Format of the Course
Interactive lecture and discussion.
Hands-on code translation and performance comparison labs.
Guided exercises focused on multi-GPU adaptation strategies.
Course Customization Options
To request a customized training for this course based on your platform or CUDA project, please contact us to arrange.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (online lub na miejscu) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą używać CUDA do programowania układów NVIDIA GPU i wykorzystywania ich równoległości.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
Skonfigurować środowisko programistyczne zawierające CUDA Toolkit, układ NVIDIA GPU i Visual Studio Code.
Stworzyć podstawowy program CUDA, który wykonuje dodawanie wektorowe na GPU i pobiera wyniki z pamięci GPU.
Użyj interfejsu API CUDA do wyszukiwania informacji o urządzeniu, przydzielania i zwalniania pamięci urządzenia, kopiowania danych między hostem a urządzeniem, uruchamiania jądra i synchronizowania wątków.
Używanie języka CUDA C/C++ do pisania jąder, które wykonują się na GPU i manipulują danymi.
Używanie wbudowanych funkcji, zmiennych i bibliotek CUDA do wykonywania typowych zadań i operacji.
Korzystanie z przestrzeni pamięci CUDA, takich jak globalna, współdzielona, stała i lokalna, w celu optymalizacji transferu danych i dostępu do pamięci.
Używanie modelu wykonania CUDA do kontrolowania wątków, bloków i siatek, które definiują równoległość.
Debugowanie i testowanie programów CUDA przy użyciu narzędzi takich jak CUDA-GDB, CUDA-MEMCHECK i NVIDIA Nsight.
Optymalizować programy CUDA przy użyciu takich technik jak koalescencja, buforowanie, prefetching i profilowanie.
Huawei Ascend jest rodziną procesorów AI zaprojektowanych do wysokowydajnej inferencji i szkolenia.
To prowadzone przez instruktora, żywe szkolenie (online lub na miejscu) jest skierowane do inżynierów AI i naukowców danych na poziomie średnim, którzy chcą tworzyć i optymalizować modele sieci neuronowych za pomocą platformy Ascend Huawei i zestawu narzędzi CANN.
Na zakończenie tego szkolenia uczestnicy będą w stanie:
Konfigurować i ustawiać środowisko CANN development.
Tworzyć aplikacje AI za pomocą MindSpore i CloudMatrix workflows.
Optymalizować wydajność na Ascend NPUs za pomocą operatorów niestandardowych i podziału.
Wdrażać modele w środowiskach krawędziowych lub chmurowych.
Format kursu
Interaktywne wykłady i dyskusje.
Ręczne używanie Huawei Ascend i zestawu narzędzi CANN w przykładowych aplikacjach.
Wykonywanie zadań pod kierunkiem, skupionych na budowaniu, szkoleniu i wdrażaniu modeli.
Opcje dostosowywania kursu
Aby zapytać o dostosowane szkolenie dla tego kursu zgodnie z Twoją infrastrukturą lub zbiory danych, skontaktuj się z nami w celu zorganizowania.
Akceleratory AI Biren są wysokowydajnymi GPUami zaprojektowanymi do obciążeń AI i HPC z wsparciem dla dużych zadań szkolenia i inferencji.
Ten kurs prowadzony przez instruktora (online lub stacjonarnie) jest przeznaczony dla programistów na poziomie średnio zaawansowanym do zaawansowanym, którzy chcą programować i optymalizować aplikacje za pomocą własnej sterty GPU Biren, z praktycznymi porównaniami do środowisk opartych na CUDA.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
Zrozumieć architekturę i hierarchię pamięci Biren GPU.
Uruchomić środowisko programistyczne i użyć modelu programowania Biren.
Tłumaczyć i optymalizować kod w stylu CUDA na platformach Biren.
Zastosować techniki dostrajania wydajności i debugowania.
Format kursu
Interaktywne wykłady i dyskusje.
Praktyczne korzystanie z Biren SDK w przykładowych obciążeniach GPU.
Prowadzone ćwiczenia skupione na przenoszeniu i dostrajaniu wydajności.
Opcje dostosowania kursu
Aby zapytać o dostosowany kurs szkoleniowy dla tego kursu na podstawie stosu aplikacji lub potrzeb integracji, prosimy o kontakt, aby umówić się.
Cambricon MLUs (Machine Learning Units) are specialized AI chips optimized for inference and training in edge and datacenter scenarios.
This instructor-led, live training (online or onsite) is aimed at intermediate-level developers who wish to build and deploy AI models using the BANGPy framework and Neuware SDK on Cambricon MLU hardware.
By the end of this training, participants will be able to:
Set up and configure the BANGPy and Neuware development environments.
Develop and optimize Python- and C++-based models for Cambricon MLUs.
Deploy models to edge and data center devices running Neuware runtime.
Integrate ML workflows with MLU-specific acceleration features.
Format of the Course
Interactive lecture and discussion.
Hands-on use of BANGPy and Neuware for development and deployment.
Guided exercises focused on optimization, integration, and testing.
Course Customization Options
To request a customized training for this course based on your Cambricon device model or use case, please contact us to arrange.
This instructor-led, live training in Szczecin (online or onsite) is aimed at beginner-level system administrators and IT professionals who wish to install, configure, manage, and troubleshoot CUDA environments.
By the end of this training, participants will be able to:
Understand the architecture, components, and capabilities of CUDA.
To prowadzone przez instruktora szkolenie na żywo w Szczecin (na miejscu lub zdalnie) jest przeznaczone dla początkujących i średnio zaawansowanych programistów, którzy chcą używać OpenCL do programowania heterogenicznych urządzeń i wykorzystywania ich równoległości.
Pod koniec tego szkolenia uczestnicy będą w stanie
Skonfigurować środowisko programistyczne obejmujące OpenCL SDK, urządzenie obsługujące OpenCL i Visual Studio Code.
Utworzyć podstawowy OpenCL program, który wykonuje dodawanie wektorowe na urządzeniu i pobiera wyniki z pamięci urządzenia.
Użyj OpenCL API, aby zapytać o informacje o urządzeniu, utworzyć konteksty, kolejki poleceń, bufory, jądra i zdarzenia.
Używanie OpenCL języka C do pisania jąder, które wykonują się na urządzeniu i manipulują danymi.
Używanie OpenCL wbudowanych funkcji, rozszerzeń i bibliotek do wykonywania typowych zadań i operacji.
Korzystanie z OpenCL modeli pamięci hosta i urządzenia w celu optymalizacji transferów danych i dostępu do pamięci.
Używanie OpenCL modelu wykonania do kontrolowania elementów roboczych, grup roboczych i zakresów ND.
Debugowanie i testowanie programów OpenCL przy użyciu narzędzi takich jak CodeXL, Intel VTune i NVIDIA Nsight.
Optymalizacja programów OpenCL przy użyciu technik takich jak wektoryzacja, rozwijanie pętli, pamięć lokalna i profilowanie.
Trening prowadzony przez instruktora na miejscu lub online (w zależności od lokalizacji) jest skierowany do programistów o średnim poziomie kwalifikacji, którzy chcą korzystać z CUDA do budowania aplikacji Python, które działają równolegle na kartach NVIDIA GPU.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
Wykorzystywać kompilator Numba do przyspieszenia aplikacji Python działających na kartach NVIDIA GPU.
Tworzyć, kompilować i uruchamiać niestandardowe jądra CUDA.
Zarządzać pamięcią GPU.
Przekształcić aplikację opartą na CPU w aplikację przyspieszoną przez GPU.
Ten prowadzony przez instruktora kurs szkoleniowy na żywo w Szczecin obejmuje sposób programowania GPUs do obliczeń równoległych, jak korzystać z różnych platform, jak pracować z platformą CUDA i jej funkcjami oraz jak wykonywać różne techniki optymalizacji za pomocą CUDA. Niektóre z zastosowań obejmują głębokie uczenie się, analitykę, przetwarzanie obrazu i aplikacje inżynieryjne.
Więcej...
Ostatnia aktualizacja:
Opinie uczestników (2)
Bardzo interaktywne z różnymi przykładami, z dobrym postępem złożoności między początkiem a końcem szkolenia.
Jenny - Andheo
Szkolenie - GPU Programming with CUDA and Python
Przetłumaczone przez sztuczną inteligencję
Spójny sposob prezentacji, duża wiedza trenera, odpowiedni poziom wejscia