SMACK Stack dla nauki o danych - Plan Szkolenia
SMACK to zbiór oprogramowania platformy danych, mianowicie Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra i Apache Kafka. Używając stosu SMACK, użytkownicy mogą tworzyć i skalować platformy przetwarzania danych.
To prowadzone przez instruktora, na żywo szkolenie (online lub stacjonarne) jest skierowane do naukowców o danych, którzy chcą korzystać ze stosu SMACK do budowania platform przetwarzania danych dla rozwiązań Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Zaimplementować architekturę potoku danych do przetwarzania Big Data.
 - Opracować infrastrukturę klastra przy użyciu Apache Mesos i Docker.
 - Analizować dane za pomocą Spark i Scala.
 - Zarządzać niestrukturalnymi danymi za pomocą Apache Cassandra.
 
Format kursu
- Interaktywna prezentacja i dyskusja.
 - Wiele ćwiczeń i praktyki.
 - Implementacja na żywo w środowisku laboratorium.
 
Opcje dostosowywania kursu
- Aby poprosić o dostosowanie tego szkolenia, prosimy o kontakt z nami w celu ustalenia szczegółów.
 
Plan Szkolenia
Wprowadzenie
Przegląd stosu SMACK
- Co to jest Apache Spark? Funkcje Apache Spark
 - Co to jest Apache Mesos? Funkcje Apache Mesos
 - Co to jest Apache Akka? Funkcje Apache Akka
 - Co to jest Apache Cassandra? Funkcje Apache Cassandra
 - Co to jest Apache Kafka? Funkcje Apache Kafka
 
Język Scala
- Składnia i struktura Scalii
 - Sterowanie przepływem w Scalii
 
Przygotowanie środowiska deweloperskiego
- Instalacja i konfiguracja stosu SMACK
 - Instalacja i konfiguracja Docker'a
 
Apache Akka
- Używanie aktorów
 
Apache Cassandra
- Tworzenie bazy danych do operacji odczytu
 - Praca z kopiami zapasowymi i odzyskiwaniem
 
Łączniki
- Tworzenie strumienia
 - Budowanie aplikacji Akka
 - Przechowywanie danych w Cassandrze
 - Przegląd łączników
 
Apache Kafka
- Praca z klastrami
 - Tworzenie, publikowanie i konsumowanie wiadomości
 
Apache Mesos
- Przydzielanie zasobów
 - Uruchamianie klastrów
 - Praca z Apache Aurora i Docker'em
 - Uruchamianie usług i zadań
 - Wdrażanie Spark, Cassandry i Kafki na Mesos
 
Apache Spark
- Zarządzanie przepływami danych
 - Praca z RDD i dataframes
 - Wykonywanie analizy danych
 
Rozwiązywanie problemów
- Obsługa awarii usług i błędów
 
Podsumowanie i wyciągnięcie wniosków
Wymagania
- Zrozumienie systemów przetwarzania danych
 
Audience
- Naukowcy o danych
 
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
SMACK Stack dla nauki o danych - Plan Szkolenia - Rezerwacja
SMACK Stack dla nauki o danych - Plan Szkolenia - Zapytanie
SMACK Stack dla nauki o danych - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (1)
bardzo interaktywny...
Richard Langford
Szkolenie - SMACK Stack for Data Science
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Wprowadzenie do Data Science i sztucznej inteligencji za pomocą Python
35 godzinTo jest 5-dniowe wprowadzenie do Data Science i Sztucznej Inteligencji (AI).
Kurs jest prowadzony z przykładami i ćwiczeniami używając języka Python.
Anaconda Ekosystem dla Naukowców Danych
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi, którzy chcą korzystać z ekosystemu Anaconda do przechwytywania, zarządzania i wdrażania pakietów i przepływów pracy analizy danych na jednej platformie.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować komponenty i biblioteki Anaconda.
 - Zrozumieć podstawowe pojęcia, funkcje i zalety Anaconda.
 - Zarządzać pakietami, środowiskami i kanałami za pomocą Anaconda Navigator.
 - Używanie pakietów Conda, R i Python do nauki o danych i uczenia maszynowego.
 - Poznanie praktycznych przypadków użycia i technik zarządzania wieloma środowiskami danych.
 
Big Data Business Intelligence for Telecom & Communication Service Providers
35 godzinPrzegląd
Communication Dostawcy usług (CSP) stoją w obliczu presji na redukcję kosztów i maksymalizację średniego przychodu na użytkownika (ARPU), przy jednoczesnym zapewnieniu doskonałego doświadczenia klienta, ale ilość danych wciąż rośnie. Globalny ruch danych w sieciach komórkowych będzie rósł w tempie 78% rocznie (CAGR) do 2016 roku, osiągając 10,8 eksabajtów miesięcznie.
W międzyczasie CSP generują duże ilości danych, w tym rejestry szczegółów połączeń (CDR), dane sieciowe i dane klientów. Firmy, które w pełni wykorzystują te dane, zyskują przewagę konkurencyjną. Według niedawnego badania przeprowadzonego przez The Economist Intelligence Unit, firmy, które wykorzystują podejmowanie decyzji w oparciu o dane, cieszą się 5-6% wzrostem produktywności. Jednak 53% firm wykorzystuje tylko połowę swoich cennych danych, a jedna czwarta respondentów zauważyła, że ogromne ilości przydatnych danych pozostają niewykorzystane. Ilość danych jest tak duża, że ich ręczna analiza jest niemożliwa, a większość starszych systemów oprogramowania nie nadąża, przez co cenne dane są odrzucane lub ignorowane.
Dzięki szybkiemu, skalowalnemu oprogramowaniu Big Data & Analytics&rsquo, dostawcy usług CSP mogą wydobywać wszystkie swoje dane w celu podejmowania lepszych decyzji w krótszym czasie. Różne produkty i techniki Big Data zapewniają kompleksową platformę oprogramowania do gromadzenia, przygotowywania, analizowania i prezentowania wniosków z dużych zbiorów danych. Obszary zastosowań obejmują monitorowanie wydajności sieci, wykrywanie oszustw, wykrywanie rezygnacji klientów i analizę ryzyka kredytowego. Produkty Big Data & Analytics skalują się do obsługi terabajtów danych, ale wdrożenie takich narzędzi wymaga nowego rodzaju systemu baz danych opartego na chmurze, takiego jak Hadoop lub masowego procesora obliczeń równoległych (KPU itp.).
Ten kurs na temat Big Data BI dla Telco obejmuje wszystkie pojawiające się nowe obszary, w które CSP inwestują w celu zwiększenia produktywności i otwarcia nowego strumienia przychodów biznesowych. Kurs zapewni pełny 360-stopniowy przegląd Big Data BI w Telco, dzięki czemu decydenci i menedżerowie będą mieli bardzo szeroki i kompleksowy przegląd możliwości Big Data BI w Telco w celu zwiększenia produktywności i przychodów.
Cele kursu
Głównym celem kursu jest wprowadzenie nowych technik analityki biznesowej Big Data w 4 sektorach Telecom biznesu (marketing / sprzedaż, operacje sieciowe, operacje finansowe i zarządzanie relacjami z klientami). Studenci zostaną zapoznani z następującymi zagadnieniami:
- Wprowadzenie do Big Data - czym są 4V (objętość, szybkość, różnorodność i prawdziwość) w Big Data - generowanie, ekstrakcja i zarządzanie z perspektywy Telco
 - Czym różni się analityka Big Data od dotychczasowej analityki danych
 - Wewnętrzne uzasadnienie Big Data - perspektywa Telco
 - Wprowadzenie do ekosystemu Hadoop - znajomość wszystkich narzędzi Hadoop, takich jak Hive, Pig, SPARC – kiedy i jak są one wykorzystywane do rozwiązywania problemów Big Data
 - W jaki sposób Big Data są pozyskiwane do analizy w narzędziach analitycznych - w jaki sposób analiza biznesowa może zmniejszyć ból związany z gromadzeniem i analizą danych dzięki zintegrowanemu podejściu do pulpitu nawigacyjnego Hadoop
 - Podstawowe wprowadzenie do analityki Insight, analityki wizualizacyjnej i analityki predykcyjnej dla Telco
 - Analityka rezygnacji klientów i Big Data - jak analityka Big Data może zmniejszyć rezygnację klientów i niezadowolenie klientów w Telco - studia przypadków
 - Analiza awarii sieci i usług na podstawie metadanych sieciowych i IPDR
 - Analiza finansowa - oszustwa, marnotrawstwo i szacowanie ROI na podstawie danych sprzedażowych i operacyjnych
 - Problem pozyskiwania klientów - marketing docelowy, segmentacja klientów i sprzedaż krzyżowa na podstawie danych sprzedażowych
 - Wprowadzenie i podsumowanie wszystkich produktów analitycznych Big Data i ich miejsca w przestrzeni analitycznej Telco
 - Podsumowanie - jak krok po kroku wprowadzić Big Data Business Intelligence w swojej organizacji
 
Docelowi odbiorcy
- Operacje sieciowe, menedżerowie finansowi, menedżerowie CRM i najlepsi menedżerowie IT w biurze Telco CIO.
 - Business Analitycy w Telco
 - Menedżerowie/analitycy biura CFO
 - Menedżerowie operacyjni
 - Menedżerowie QA
 
Praktyczne wprowadzenie do nauki o danych
35 godzinUczestnicy, którzy ukończą to szkolenie, uzyskają praktyczną, zorientowaną na rzeczywistość wiedzę o Nauce o Danych oraz jej powiązanych technologiach, metodologii i narzędziach.
Uczestnicy będą mieli okazję praktycznie zastosować zdobyte wiedzę poprzez ćwiczenia praktyczne. Współpraca grupowa oraz opinie instruktora stanowią ważny element szkolenia.
Szkolenie rozpoczyna się od wprowadzenia do podstawowych pojęć Nauki o Danych, a następnie postępuje w kierunku narzędzi i metodologii wykorzystywanych w tej dziedzinie.
Odbiorcy szkolenia
- Programiści
 - Analitycy techniczni
 - Konsultanci IT
 
Format szkolenia
- Część prezentacji, część dyskusji, ćwiczenia i intensywne praktyki praktyczne
 
Uwaga
- Aby zamówić dostosowane szkolenie dla tego kursu, prosimy o kontakt z nami w celu uzgodnienia szczegółów.
 
Data Science for Big Data Analytics
35 godzinBig data to zbiory danych, które są tak obszerne i złożone, że tradycyjne aplikacje do przetwarzania danych nie są w stanie sobie z nimi poradzić. Wyzwania związane z dużymi zbiorami danych obejmują przechwytywanie danych, przechowywanie danych, analizę danych, wyszukiwanie, udostępnianie, przesyłanie, wizualizację, zapytania, aktualizację i prywatność informacji.
Data Science niezbędne dla profesjonalistów marketingowych/handlowych
21 godzin    Ten kurs jest przeznaczony dla profesjonalistów z dziedziny marketingu i sprzedaży, którzy chcą pogłębić swoją wiedzę na temat zastosowań nauki o danych w marketingu/sprzedaży. Kurs dostarcza szczegółowych informacji o różnych technikach nauki o danych stosowanych do „upsale”, „cross-sale”, segmentacji rynku, budowania marki oraz CLV.
    Różnice między marketingiem a sprzedażą - w jaki sposób sprzedaż i marketing różnią się między sobą?
    W bardzo prostych słowach sprzedaż można określić jako proces skupiony na indywidualnych klientach lub małych grupach. Marketing natomiast kierowany jest do większych grup lub do ogółu społeczeństwa. Marketing obejmuje badania (identyfikacja potrzeb klienta), rozwój produktów (tworzenie innowacyjnych produktów) oraz promocję produktu (przez reklamy) i tworzenie świadomości produktu wśród konsumentów. Dlatego marketing oznacza generowanie potencjalnych klientów. Gdy produkt pojawia się na rynku, zadanie sprzedawcy polega na przekonaniu klienta do zakupu. Sprzedaż oznacza przekształcenie potencjalnych klientów w zakupy i zamówienia, podczas gdy marketing ma na celu dłuższy okres, sprzedaż dotyczy krótkoterminowych celów.
Jupyter dla zespołów nauki o danych
7 godzinTo szkolenie prowadzone przez instruktora, dostępne online lub stacjonarnie, wprowadza koncepcję wspólnego rozwoju w dziedzinie nauk o danych i demonstruje, jak używać Jupyter do śledzenia i udziału w zespole w "cyklu życia pomysłu obliczeniowego". Przewodzi uczestników przez tworzenie przykładowego projektu z dziedziny nauk o danych opartych na ekosystemie Jupyter.
Po zakończeniu tego szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Jupyter, w tym utworzyć i zintegrować repozytorium zespołu w Git.
 - Używać funkcji Jupyter, takich jak rozszerzenia, interaktywne widgety, tryb wieloużytkownika i więcej, aby umożliwić współpracę nad projektem.
 - Tworzyć, dzielić się i organizować Jupyter Notebooks z członkami zespołu.
 - Wybierać spośród języków Scala, Python, R do pisania i wykonywania kodu na systemach obsługujących duże zbiory danych, takich jak Apache Spark, wszystkie przez interfejs Jupyter.
 
Kaggle
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi i programistów, którzy chcą uczyć się i budować swoją karierę w Data Science za pomocą Kaggle.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się o nauce o danych i uczeniu maszynowym.
 - Poznaj analitykę danych.
 - Dowiedzieć się o Kaggle i jak to działa.
 
Machine Learning dla Data Science z Python
21 godzinTo szkolenie prowadzone przez instruktora, dostępne online lub na miejscu w Polsce, jest skierowane do analityków danych, programistów na poziomie średnim lub przyszłych naukowców danych, którzy chcą zastosować techniki uczenia maszynowego w Python do wyciągania wniosków, robienia prognoz i automatyzacji decyzji opartego na danych.
Po ukończeniu tego kursu uczestnicy będą w stanie:
- Rozumieć i rozróżniać kluczowe paradygmaty uczenia maszynowego.
 - Badać techniki przygotowania danych i metryki oceny modeli.
 - Zastosować algorytmy uczenia maszynowego do rozwiązywania rzeczywistych problemów danych.
 - Używać bibliotek Python oraz notatników Jupyter do praktycznego rozwoju.
 - Budować modele do prognozowania, klasyfikacji, rekomendacji i klasyfikacji grupowej.
 
Przyspieszanie przepływów danych w Pythonie Pandas z użyciem Modin
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi i programistów, którzy chcą używać Modin do tworzenia i wdrażania równoległych obliczeń z Pandas w celu szybszej analizy danych.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować niezbędne środowisko, aby rozpocząć opracowywanie Pandas przepływów pracy na dużą skalę z Modin.
 - Zrozumieć funkcje, architekturę i zalety Modin.
 - Znać różnice między Modin, Dask i Ray.
 - Szybsze wykonywanie operacji Pandas za pomocą Modin.
 - Wdrożenie całego interfejsu API i funkcji Pandas.
 
Programowanie w języku Python dla Finansów
35 godzinPython jest językiem programowania, który zdobył ogromną popularność w sektorze finansowym. Został przyjęty przez największe banki inwestycyjne i fundusze hedgingowe i jest wykorzystywany do budowy szerokiej gamy aplikacji finansowych, od programów handlowych podstawowych po systemy zarządzania ryzykiem.
W tym prowadzonym przez instruktora szkoleniu online uczestnicy nauczą się, jak używać Pythona do tworzenia praktycznych aplikacji rozwiązujących różne problemy związane z finansami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Zrozumieć podstawy języka programowania Python
 - Pobrać, zainstalować i utrzymywać najlepsze narzędzia programistyczne do tworzenia aplikacji finansowych w Python
 - Wybierać i wykorzystywać najodpowiedniejsze pakiety Python i techniki programowania do organizowania, wizualizacji i analizy danych finansowych z różnych źródeł (CSV, Excel, bazy danych, internet, itp.)
 - Budować aplikacje rozwiązujące problemy związane z alokacją aktywów, analizą ryzyka, wydajnością inwestycji i innymi kwestiami
 - Diagnozować, integrować, wdrażać i optymalizować aplikację Python
 
Grupa docelowa
- Developers
 - Analysts
 - Quants
 
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i intensywne praktyczne ćwiczenia
 
Uwaga
- To szkolenie ma na celu dostarczenie rozwiązań dla niektórych z głównych problemów, z którymi borykają się specjaliści ds. finansowych. Jeśli jednak masz konkretny temat, narzędzie lub technikę, o której chciałbyś wiedzieć więcej, skontaktuj się z nami, aby to zaryzować.
 
Python w Naukach o Danych
35 godzinKurs szkoleniowy pomoże uczestnikom przygotować się do tworzenia aplikacji internetowych z użyciem programowania Python z analizą danych. Wizualizacja takich danych jest świetnym narzędziem dla zarządu w podejmowaniu decyzji.
Naukowa analiza danych GPU z użyciem NVIDIA RAPIDS
14 godzinTo szkolenie prowadzone przez instruktora w formie online lub stacjonarnej jest skierowane do naukowców danych i deweloperów, którzy chcą wykorzystać RAPIDS do budowy GPU-przyspieszanych przepływów danych, procesów pracy oraz wizualizacji, stosując algorytmy uczenia maszynowego, takie jak XGBoost, cuML, itd.
Po zakończeniu tego szkolenia uczestnicy będą w stanie:
- Ustawić niezbędne środowisko deweloperskie do budowy modeli danych z NVIDIA RAPIDS.
 - Zrozumieć funkcje, składniki i zalety RAPIDS.
 - Wykorzystywać GPU do przyspieszania przepływów danych i analiz od początku do końca.
 - Wdrażać GPU-przyspieszane przygotowanie danych i ETL z użyciem cuDF i Apache Arrow.
 - Nauczyć się wykonywania zadań uczenia maszynowego z użyciem algorytmów XGBoost i cuML.
 - Tworzyć wizualizacje danych i wykonywać analizę grafu z użyciem cuXfilter i cuGraph.
 
Python i Spark dla Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
 - Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
 - Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
 
Stratio: Moduły Rakietowe i Inteligencji z PySpark
14 godzinStratio to platforma centrowana na danych, która integruje big data, sztuczną inteligencję i zarządzanie w jedno rozwiązanie. Jej moduły Rocket i Intelligence umożliwiają szybkie eksplorowanie, transformację i zaawansowaną analitykę danych w środowiskach korporacyjnych.
To szkolenie prowadzone przez instruktora (online lub stacjonarnie) jest skierowane do profesjonalistów danych na poziomie średnim, którzy chcą efektywnie wykorzystywać moduły Rocket i Intelligence w Stratio z użyciem PySpark, skupiając się na strukturach pętli, funkcjach zdefiniowanych przez użytkownika oraz zaawansowanej logice danych.
Na koniec tego szkolenia uczestnicy będą w stanie:
- Poruszać się i pracować w platformie Stratio za pomocą modułów Rocket i Intelligence.
 - Zastosować PySpark w kontekście wczytywania, transformacji i analizy danych.
 - Używać pętli i logiki warunkowej do kontrolowania przepływu danych i zadań inżynierii cech.
 - Tworzyć i zarządzać funkcjami zdefiniowanymi przez użytkownika (UDF) do powtarzalnych operacji danych w PySpark.
 
Format kursu
- Interaktywne wykłady i dyskusje.
 - Dużo ćwiczeń i praktyki.
 - Ręczne wdrożenie w środowisku live-lab.
 
Opcje dostosowania kursu
- Aby poprosić o dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu ustalenia szczegółów.