Apache Spark in the Cloud - Plan Szkolenia
Krzywa uczenia się Apache Spark powoli rośnie na początku, wymaga dużo wysiłku, aby uzyskać pierwszy zwrot. Ten kurs ma na celu przeskoczenie pierwszej trudnej części. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark , będą wyraźnie odróżniać RDD od DataFrame, nauczą się Pythona i Scala API, zrozumieją executory i zadania itp. Również zgodnie z najlepszymi praktykami, kurs ten silnie koncentruje się na wdrażaniu w chmurze, Databricks i AWS. Studenci zrozumieją również różnice między AWS EMR i AWS Glue, jedną z najnowszych usług Spark w AWS.
AUDIENCJA:
Inżynier ds. danych, DevOps, Naukowiec ds. danych
Plan Szkolenia
Wstęp:
- Apache Spark w Hadoop Ekosystem
- Krótkie wprowadzenie do Pythona, Scala
Podstawy (teoria):
- Architektura
- RDD
- Transformacja i działania
- Etap, zadanie, zależności
Korzystanie ze środowiska Databricks pozwala zrozumieć podstawy (warsztat praktyczny):
- Ćwiczenia z wykorzystaniem RDD API
- Podstawowe funkcje akcji i transformacji
- ParaRDD
- Dołączyć
- Strategie buforowania
- Ćwiczenia z wykorzystaniem DataFrame API
- IskraSQL
- DataFrame: wybierz, filtruj, grupuj, sortuj
- UDF (funkcja zdefiniowana przez użytkownika)
- Patrząc na API DataSet
- Transmisja strumieniowa
Korzystanie ze środowiska AWS obejmuje zrozumienie wdrożenia (warsztat praktyczny):
- Podstawy kleju AWS
- Poznaj różnice między AWS EMR i AWS Glue
- Przykładowe zadania w obu środowiskach
- Zrozum zalety i wady
Dodatkowy:
- Wprowadzenie do orkiestracji Apache Airflow.
Wymagania
Umiejętność programowania (najlepiej w języku python, scala)
Podstawy SQL
Szkolenia zdalne są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Apache Spark in the Cloud - Plan Szkolenia - Booking
Apache Spark in the Cloud - Plan Szkolenia - ZAPYTANIE O SZKOLENIE
Apache Spark in the Cloud - Zapytanie o Konsultacje
Opinie uczestników (2)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
Szkolenia Powiązane
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas praktycznych ćwiczeń.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Dowiedz się, jak używać Sparka z Python do analizy Big Data.
- Pracuj nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używaj różnych narzędzi i technik do analizy dużych zbiorów danych za pomocą PySpark.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczniemy od szerokiego przeglądu i zawęzimy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumienie, w jaki sposób dane grafowe są utrwalane i przetwarzane.
- Wybór najlepszego frameworka dla danego zadania (od baz danych grafów do frameworków przetwarzania wsadowego).
- Wdrożenie Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Spojrzenie na rzeczywiste problemy związane z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Publiczność
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark
Big Data Analytics in Health
21 godzinAnalityka Big Data obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych przydatnych informacji.
Branża medyczna dysponuje ogromnymi ilościami złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy dużych zbiorów danych na danych dotyczących zdrowia stanowi ogromny potencjał w uzyskiwaniu wglądu w celu poprawy świadczenia opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi ogromne wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
W tym prowadzonym przez instruktora szkoleniu na żywo (zdalnie) uczestnicy dowiedzą się, jak przeprowadzić analizę dużych zbiorów danych w zakresie zdrowia, przechodząc przez serię praktycznych ćwiczeń laboratoryjnych na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie narzędzi do analizy dużych zbiorów danych, takich jak Hadoop MapReduce i Spark.
- Zrozumienie charakterystyki danych medycznych
- Stosowanie technik big data do przetwarzania danych medycznych
- Badanie systemów i algorytmów big data w kontekście aplikacji zdrowotnych
Publiczność
- Programiści
- Naukowcy ds. danych
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna.
Uwaga
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Hadoop and Spark for Administrators
35 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów systemów, którzy chcą dowiedzieć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Hadoop.
- Zrozumienie czterech głównych komponentów ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używanie rozproszonego systemu plików Hadoop (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Konfigurowanie HDFS do działania jako silnik pamięci masowej dla lokalnych wdrożeń Spark.
- Konfiguracja Spark, aby uzyskać dostęp do alternatywnych rozwiązań pamięci masowej, takich jak Amazon S3 i systemów baz danych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywanie zadań administracyjnych, takich jak udostępnianie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTen prowadzony przez instruktora trening na żywo w Polsce (online lub na miejscu) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
-
Wykorzystaj Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
Ujednolicenie zabezpieczeń, zarządzania i możliwości operacyjnych Hadoop ze zwinnymi analitycznymi przepływami pracy Spark.
Wykorzystaj Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
A Practical Introduction to Stream Processing
21 godzinW tym instruktażowym szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracja najbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
Magellan: Geospatial Analytics on Spark
14 godzinMagellan to rozproszony silnik wykonawczy typu open source do analizy geoprzestrzennej dużych zbiorów danych. Zaimplementowany na Apache Spark, rozszerza Spark SQL i zapewnia relacyjną abstrakcję dla analiz geoprzestrzennych.
To prowadzone przez instruktora szkolenie na żywo wprowadza koncepcje i podejścia do wdrażania analityki geoprzestrzennej i prowadzi uczestników przez tworzenie aplikacji do analizy predykcyjnej przy użyciu Magellan na Spark.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wydajne wyszukiwanie, analizowanie i łączenie zbiorów danych geoprzestrzennych na dużą skalę
- Wdrażanie danych geoprzestrzennych w aplikacjach analityki biznesowej i analityki predykcyjnej
- Wykorzystanie kontekstu przestrzennego do rozszerzenia możliwości urządzeń mobilnych, czujników, dzienników i urządzeń ubieralnych
Format kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku live-lab.
Opcje dostosowywania kursu
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Apache Spark for .NET Developers
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla programistów, którzy chcą przeprowadzić analizę dużych zbiorów danych przy użyciu Apache Spark w swoich aplikacjach .NET.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie Apache Spark.
- Zrozumienie, w jaki sposób .NET implementuje interfejsy API Spark, aby można było uzyskać do nich dostęp z aplikacji .NET.
- Rozwijanie aplikacji do przetwarzania danych przy użyciu języka C# lub F#, zdolnych do obsługi zestawów danych, których rozmiar jest mierzony w terabajtach i pedabajtach.
- Rozwijanie funkcji uczenia maszynowego dla aplikacji .NET przy użyciu możliwości Apache Spark.
- Przeprowadzanie analizy eksploracyjnej przy użyciu SQL zapytań na dużych zbiorach danych.
SMACK Stack for Data Science
14 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi, którzy chcą używać stosu SMACK do tworzenia platform przetwarzania danych dla rozwiązań Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wdrożenie architektury potoku danych do przetwarzania dużych zbiorów danych.
- Rozwój infrastruktury klastrowej przy użyciu Apache Mesos i Docker.
- Analiza danych za pomocą Spark i Scala.
- Zarządzanie nieustrukturyzowanymi danymi za pomocą Apache Cassandra.
Apache Spark Fundamentals
21 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Spark.
- Szybkie przetwarzanie i analizowanie bardzo dużych zbiorów danych.
- Zrozumienie różnicy między Apache Spark i Hadoop MapReduce i kiedy używać którego z nich.
- Integracja Apache Spark z innymi narzędziami uczenia maszynowego.
Administration of Apache Spark
35 godzinApache Spark is an open-source, unified analytics engine for large-scale data processing.
This instructor-led, live training (online or onsite) is aimed at beginner-level to intermediate-level system administrators who wish to deploy, maintain, and optimize Spark clusters.
By the end of this training, participants will be able to:
- Install and configure Apache Spark in various environments.
- Manage cluster resources and monitor Spark applications.
- Optimize the performance of Spark clusters.
- Implement security measures and ensure high availability.
- Debug and troubleshoot common Spark issues.
Format of the Course
- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Spark for Developers
21 godzinCEL:
Ten kurs wprowadzi Apache Spark. Studenci dowiedzą się, jak Spark pasuje do ekosystemu Big Data i jak używać Spark do analizy danych. Kurs obejmuje powłokę Spark do interaktywnej analizy danych, elementy wewnętrzne Spark, interfejsy API Spark, Spark SQL, przesyłanie strumieniowe Spark oraz uczenie maszynowe i graphX.
AUDIENCJA :
Programiści / analitycy danych
Scaling Data Pipelines with Spark NLP
14 godzinTen prowadzony przez instruktora trening na żywo w Polsce (online lub na miejscu) jest skierowany do naukowców zajmujących się danymi i programistów, którzy chcą używać Spark NLP, zbudowanego na bazie Apache Spark, do opracowywania, wdrażania i skalowania modeli i potoków przetwarzania tekstu w języku naturalnym.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Ustawienie niezbędnego środowiska programistycznego, aby rozpocząć tworzenie potoków NLP za pomocą Spark NLP.
- Zrozumienie funkcji, architektury i korzyści płynących z używania Spark NLP.
- Używanie wstępnie wytrenowanych modeli dostępnych w Spark NLP do implementacji przetwarzania tekstu.
- Dowiedz się, jak budować, trenować i skalować modele Spark NLP dla projektów klasy produkcyjnej.
- Zastosuj klasyfikację, wnioskowanie i analizę nastrojów w rzeczywistych przypadkach użycia (dane kliniczne, spostrzeżenia dotyczące zachowań klientów itp.