Scaling Data Pipelines with Spark NLP - Plan Szkolenia
Spark NLP to biblioteka open source, zbudowana na Apache Spark, do przetwarzania języka naturalnego za pomocą Pythona, Javy i Scala. Jest szeroko stosowana w przedsiębiorstwach i branżach, takich jak opieka zdrowotna, finanse, nauki przyrodnicze i rekrutacja.
Szkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi i programistów, którzy chcą korzystać z Spark NLP, zbudowanego na bazie Apache Spark, do opracowywania, wdrażania i skalowania modeli i potoków przetwarzania tekstu w języku naturalnym.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Skonfigurować niezbędne środowisko programistyczne, aby rozpocząć tworzenie potoków NLP za pomocą Spark NLP.
- Zrozumienie funkcji, architektury i korzyści płynących z korzystania z Spark NLP.
- Wykorzystanie wstępnie wytrenowanych modeli dostępnych w Spark NLP do implementacji przetwarzania tekstu.
- Dowiedz się, jak budować, trenować i skalować modele Spark NLP dla projektów klasy produkcyjnej.
- Zastosuj klasyfikację, wnioskowanie i analizę nastrojów w rzeczywistych przypadkach użycia (dane kliniczne, spostrzeżenia dotyczące zachowań klientów itp.)
Format kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku live-lab.
Opcje dostosowywania kursu
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Plan Szkolenia
Wprowadzenie
- Spark NLP vs NLTK vs spaCy
- Przegląd funkcji i architektury Spark NLP
Pierwsze kroki
- Wymagania dotyczące konfiguracji
- Instalacja Spark NLP
- Pojęcia ogólne
Korzystanie ze wstępnie wytrenowanych potoków
- Importowanie wymaganych modułów
- Domyślne adnotatory
- Ładowanie modelu potoku
- Przekształcanie tekstów
Tworzenie potoków NLP
- Zrozumienie interfejsu API potoku
- Wdrażanie modeli NER
- Wybór osadzeń
- Używanie osadzeń słów, zdań i uniwersalnych
Klasyfikacja i wnioskowanie
- Przypadki użycia klasyfikacji dokumentów
- Modele analizy nastrojów
- Trenowanie klasyfikatora dokumentów
- Korzystanie z innych struktur uczenia maszynowego
- Zarządzanie modelami NLP
- Optymalizacja modeli pod kątem wnioskowania o małych opóźnieniach
Rozwiązywanie problemów
Podsumowanie i kolejne kroki
Wymagania
- Znajomość Apache Spark
- Python doświadczenie w programowaniu
Publiczność
- Naukowcy danych
- Deweloperzy
Szkolenia zdalne są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Scaling Data Pipelines with Spark NLP - Plan Szkolenia - Booking
Scaling Data Pipelines with Spark NLP - Plan Szkolenia - ZAPYTANIE O SZKOLENIE
Scaling Data Pipelines with Spark NLP - Zapytanie o Konsultacje
Opinie uczestników (2)
Exercises and exchanges during questions/answers
Antoine - Physiobotic
Szkolenie - Scaling Data Pipelines with Spark NLP
Przetłumaczone przez sztuczną inteligencję
The good humor, support and skills of the trainer.
Oumayma - Physiobotic
Szkolenie - Scaling Data Pipelines with Spark NLP
Przetłumaczone przez sztuczną inteligencję
Szkolenia Powiązane
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas praktycznych ćwiczeń.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Dowiedz się, jak używać Sparka z Python do analizy Big Data.
- Pracuj nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używaj różnych narzędzi i technik do analizy dużych zbiorów danych za pomocą PySpark.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczniemy od szerokiego przeglądu i zawęzimy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zrozumienie, w jaki sposób dane grafowe są utrwalane i przetwarzane.
- Wybór najlepszego frameworka dla danego zadania (od baz danych grafów do frameworków przetwarzania wsadowego).
- Wdrożenie Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Spojrzenie na rzeczywiste problemy związane z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Publiczność
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark
Big Data Analytics in Health
21 godzinAnalityka Big Data obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych przydatnych informacji.
Branża medyczna dysponuje ogromnymi ilościami złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy dużych zbiorów danych na danych dotyczących zdrowia stanowi ogromny potencjał w uzyskiwaniu wglądu w celu poprawy świadczenia opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi ogromne wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
W tym prowadzonym przez instruktora szkoleniu na żywo (zdalnie) uczestnicy dowiedzą się, jak przeprowadzić analizę dużych zbiorów danych w zakresie zdrowia, przechodząc przez serię praktycznych ćwiczeń laboratoryjnych na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie narzędzi do analizy dużych zbiorów danych, takich jak Hadoop MapReduce i Spark.
- Zrozumienie charakterystyki danych medycznych
- Stosowanie technik big data do przetwarzania danych medycznych
- Badanie systemów i algorytmów big data w kontekście aplikacji zdrowotnych
Publiczność
- Programiści
- Naukowcy ds. danych
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna.
Uwaga
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Hadoop and Spark for Administrators
35 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów systemów, którzy chcą dowiedzieć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Hadoop.
- Zrozumienie czterech głównych komponentów ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używanie rozproszonego systemu plików Hadoop (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Konfigurowanie HDFS do działania jako silnik pamięci masowej dla lokalnych wdrożeń Spark.
- Konfiguracja Spark, aby uzyskać dostęp do alternatywnych rozwiązań pamięci masowej, takich jak Amazon S3 i systemów baz danych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywanie zadań administracyjnych, takich jak udostępnianie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTen prowadzony przez instruktora trening na żywo w Polsce (online lub na miejscu) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
-
Wykorzystaj Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
Ujednolicenie zabezpieczeń, zarządzania i możliwości operacyjnych Hadoop ze zwinnymi analitycznymi przepływami pracy Spark.
Wykorzystaj Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
A Practical Introduction to Stream Processing
21 godzinW tym instruktażowym szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracja najbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
Magellan: Geospatial Analytics on Spark
14 godzinMagellan to rozproszony silnik wykonawczy typu open source do analizy geoprzestrzennej dużych zbiorów danych. Zaimplementowany na Apache Spark, rozszerza Spark SQL i zapewnia relacyjną abstrakcję dla analiz geoprzestrzennych.
To prowadzone przez instruktora szkolenie na żywo wprowadza koncepcje i podejścia do wdrażania analityki geoprzestrzennej i prowadzi uczestników przez tworzenie aplikacji do analizy predykcyjnej przy użyciu Magellan na Spark.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wydajne wyszukiwanie, analizowanie i łączenie zbiorów danych geoprzestrzennych na dużą skalę
- Wdrażanie danych geoprzestrzennych w aplikacjach analityki biznesowej i analityki predykcyjnej
- Wykorzystanie kontekstu przestrzennego do rozszerzenia możliwości urządzeń mobilnych, czujników, dzienników i urządzeń ubieralnych
Format kursu
- Interaktywny wykład i dyskusja.
- Dużo ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku live-lab.
Opcje dostosowywania kursu
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Apache Spark for .NET Developers
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla programistów, którzy chcą przeprowadzić analizę dużych zbiorów danych przy użyciu Apache Spark w swoich aplikacjach .NET.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie Apache Spark.
- Zrozumienie, w jaki sposób .NET implementuje interfejsy API Spark, aby można było uzyskać do nich dostęp z aplikacji .NET.
- Rozwijanie aplikacji do przetwarzania danych przy użyciu języka C# lub F#, zdolnych do obsługi zestawów danych, których rozmiar jest mierzony w terabajtach i pedabajtach.
- Rozwijanie funkcji uczenia maszynowego dla aplikacji .NET przy użyciu możliwości Apache Spark.
- Przeprowadzanie analizy eksploracyjnej przy użyciu SQL zapytań na dużych zbiorach danych.
SMACK Stack for Data Science
14 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi, którzy chcą używać stosu SMACK do tworzenia platform przetwarzania danych dla rozwiązań Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wdrożenie architektury potoku danych do przetwarzania dużych zbiorów danych.
- Rozwój infrastruktury klastrowej przy użyciu Apache Mesos i Docker.
- Analiza danych za pomocą Spark i Scala.
- Zarządzanie nieustrukturyzowanymi danymi za pomocą Apache Cassandra.
Apache Spark Fundamentals
21 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Spark.
- Szybkie przetwarzanie i analizowanie bardzo dużych zbiorów danych.
- Zrozumienie różnicy między Apache Spark i Hadoop MapReduce i kiedy używać którego z nich.
- Integracja Apache Spark z innymi narzędziami uczenia maszynowego.
Administration of Apache Spark
35 godzinApache Spark is an open-source, unified analytics engine for large-scale data processing.
This instructor-led, live training (online or onsite) is aimed at beginner-level to intermediate-level system administrators who wish to deploy, maintain, and optimize Spark clusters.
By the end of this training, participants will be able to:
- Install and configure Apache Spark in various environments.
- Manage cluster resources and monitor Spark applications.
- Optimize the performance of Spark clusters.
- Implement security measures and ensure high availability.
- Debug and troubleshoot common Spark issues.
Format of the Course
- Interactive lecture and discussion.
- Lots of exercises and practice.
- Hands-on implementation in a live-lab environment.
Course Customization Options
- To request a customized training for this course, please contact us to arrange.
Apache Spark in the Cloud
21 godzinKrzywa uczenia się Apache Spark powoli rośnie na początku, wymaga dużo wysiłku, aby uzyskać pierwszy zwrot. Ten kurs ma na celu przeskoczenie pierwszej trudnej części. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark , będą wyraźnie odróżniać RDD od DataFrame, nauczą się Pythona i Scala API, zrozumieją executory i zadania itp. Również zgodnie z najlepszymi praktykami, kurs ten silnie koncentruje się na wdrażaniu w chmurze, Databricks i AWS. Studenci zrozumieją również różnice między AWS EMR i AWS Glue, jedną z najnowszych usług Spark w AWS.
AUDIENCJA:
Inżynier ds. danych, DevOps, Naukowiec ds. danych
Spark for Developers
21 godzinCEL:
Ten kurs wprowadzi Apache Spark. Studenci dowiedzą się, jak Spark pasuje do ekosystemu Big Data i jak używać Spark do analizy danych. Kurs obejmuje powłokę Spark do interaktywnej analizy danych, elementy wewnętrzne Spark, interfejsy API Spark, Spark SQL, przesyłanie strumieniowe Spark oraz uczenie maszynowe i graphX.
AUDIENCJA :
Programiści / analitycy danych