Python, Spark, and Hadoop for Big Data - Plan Szkolenia
Python to skalowalny, elastyczny i szeroko stosowany język programowania do nauki o danych i uczenia maszynowego. Spark to silnik przetwarzania danych wykorzystywany do wyszukiwania, analizowania i przekształcania dużych zbiorów danych, podczas gdy Hadoop to biblioteka oprogramowania do przechowywania i przetwarzania danych na dużą skalę.
Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą używać i integrować Spark, Hadoop i Python do przetwarzania, analizowania i przekształcania dużych i złożonych zestawów danych.
Pod koniec tego szkolenia uczestnicy będą mogli
- Skonfigurować środowisko niezbędne do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, podstawowe komponenty i architekturę Spark i Hadoop.
- Dowiedz się, jak zintegrować Spark, Hadoop i Python w celu przetwarzania dużych zbiorów danych.
- Poznanie narzędzi w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Tworzenie systemów rekomendacji opartych na filtrowaniu kolaboracyjnym podobnych do Netflix, YouTube, Amazon, Spotify i Google.
- Użyj Apache Mahout do skalowania algorytmów uczenia maszynowego.
Format kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratorium na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.
Plan Szkolenia
Wprowadzenie
- Przegląd funkcji i architektury Spark i Hadoop
- Zrozumienie dużych zbiorów danych
- Podstawy programowania Python
Pierwsze kroki
- Konfiguracja Python, Spark i Hadoop
- Zrozumienie struktur danych w Python
- Zrozumienie interfejsu API PySpark
- Zrozumienie HDFS i MapReduce
Integracja Sparka i Hadoop z Python
- Wdrażanie Spark RDD w Python
- Przetwarzanie danych przy użyciu MapReduce
- Tworzenie rozproszonych zbiorów danych w HDFS
Przetwarzanie Machine Learning za pomocą Spark MLlib
Przetwarzanie Big Data z Spark Streaming
Praca z systemami rekomendacji
Praca z Kafką, Sqoop, Kafką i Flume
Apache Mahout ze Spark i Hadoop
Rozwiązywanie problemów
Podsumowanie i kolejne kroki
Wymagania
- Doświadczenie ze Sparkiem i Hadoop
- Python doświadczenie w programowaniu
Uczestnicy
- Naukowcy zajmujący się danymi
- Programiści
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Python, Spark, and Hadoop for Big Data - Plan Szkolenia - Booking
Python, Spark, and Hadoop for Big Data - Plan Szkolenia - Enquiry
Python, Spark, and Hadoop for Big Data - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (3)
Tozsamość tego, że udało nam się zabrać większość informacji/zawartości/prezentacji/cwiczeń, abyśmy mogli je przejrzeć i możliwe redokonać to, co nie było nam początkowo jasne, lub poprawić to, co już wykonaliśmy.
Raul Mihail Rat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Podobało mi się, że udało mu się ułożyć fundamenty tematu i przejść do znacznie zaawansowanych ćwiczeń. Ponadto udostępnił łatwe sposoby na pisanie i testowanie kodu.
Ionut Goga - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Przykłady w czasie rzeczywistym
Ahmet Bolat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Big Data Analytics with Google Colab and Apache Spark
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla średnio zaawansowanych analityków danych i inżynierów, którzy chcą korzystać z Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko big data przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Zintegrować Apache Spark z narzędziami opartymi na chmurze.
Big Data Analytics in Health
21 godzinAnalityka Big Data obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych przydatnych informacji.
Branża medyczna dysponuje ogromnymi ilościami złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy dużych zbiorów danych na danych dotyczących zdrowia stanowi ogromny potencjał w uzyskiwaniu wglądu w celu poprawy świadczenia opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi ogromne wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
W tym prowadzonym przez instruktora szkoleniu na żywo (zdalnie) uczestnicy dowiedzą się, jak przeprowadzić analizę dużych zbiorów danych w zakresie zdrowia, przechodząc przez serię praktycznych ćwiczeń laboratoryjnych na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie narzędzi do analizy dużych zbiorów danych, takich jak Hadoop MapReduce i Spark.
- Zrozumienie charakterystyki danych medycznych
- Stosowanie technik big data do przetwarzania danych medycznych
- Badanie systemów i algorytmów big data w kontekście aplikacji zdrowotnych
Uczestnicy
- Programiści
- Naukowcy ds. danych
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna.
Uwaga
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Hadoop and Spark for Administrators
35 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów systemów, którzy chcą dowiedzieć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Hadoop.
- Zrozumienie czterech głównych komponentów ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używanie rozproszonego systemu plików Hadoop (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Konfigurowanie HDFS do działania jako silnik pamięci masowej dla lokalnych wdrożeń Spark.
- Konfiguracja Spark, aby uzyskać dostęp do alternatywnych rozwiązań pamięci masowej, takich jak Amazon S3 i systemów baz danych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywanie zadań administracyjnych, takich jak udostępnianie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Używać Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
- Ujednolicić możliwości Hadoop w zakresie bezpieczeństwa, zarządzania i operacji ze zwinnymi analitycznymi przepływami pracy Spark.
- Wykorzystanie Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
- Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
Data Analysis with Hive/HiveQL
7 godzinTen kurs obejmuje sposób korzystania z języka Hive SQL (AKA: Hive HQL, SQL on Hive, HiveQL) dla osób, które wyodrębniają dane z Hive
Impala for Business Intelligence
21 godzinCloudera Impala to silnik zapytań typu open source do masowego przetwarzania równoległego (MPP) SQL dla klastrów Apache Hadoop.
Cloudera Impala umożliwia użytkownikom wysyłanie zapytań o niskim opóźnieniu SQL do danych przechowywanych w Hadoop Distributed File System i Apache Hbase bez konieczności przenoszenia lub przekształcania danych.
Odbiorcy
Ten kurs jest skierowany do analityków i badaczy danych przeprowadzających analizy danych przechowywanych w Hadoop za pośrednictwem narzędzi Business Intelligence lub SQL.
Po ukończeniu tego kursu uczestnicy będą w stanie
- Wyodrębniać znaczące informacje z klastrów Hadoop za pomocą Impala.
- Pisać specjalne programy ułatwiające Business Intelligence w Impala SQL dialekcie.
- Rozwiązywać problemy Impala.
A Practical Introduction to Stream Processing
21 godzinW tym instruktażowym szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracja najbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
SMACK Stack for Data Science
14 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi, którzy chcą używać stosu SMACK do tworzenia platform przetwarzania danych dla rozwiązań Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wdrożenie architektury potoku danych do przetwarzania dużych zbiorów danych.
- Rozwój infrastruktury klastrowej przy użyciu Apache Mesos i Docker.
- Analiza danych za pomocą Spark i Scala.
- Zarządzanie nieustrukturyzowanymi danymi za pomocą Apache Cassandra.
Apache Spark Fundamentals
21 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Spark.
- Szybkie przetwarzanie i analizowanie bardzo dużych zbiorów danych.
- Zrozumienie różnicy między Apache Spark i Hadoop MapReduce i kiedy używać którego z nich.
- Integracja Apache Spark z innymi narzędziami uczenia maszynowego.
Administration of Apache Spark
35 godzinThis instructor-led, live training in Polsce (online or onsite) is aimed at beginner-level to intermediate-level system administrators who wish to deploy, maintain, and optimize Spark clusters.
By the end of this training, participants will be able to:
- Install and configure Apache Spark in various environments.
- Manage cluster resources and monitor Spark applications.
- Optimize the performance of Spark clusters.
- Implement security measures and ensure high availability.
- Debug and troubleshoot common Spark issues.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark