Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Wprowadzenie do nauki o danych dla analizy dużych zbiorów danych
- Przegląd nauki o danych
- Przegląd dużych zbiorów danych
- Struktury danych
- Czynniki i złożoności dużych zbiorów danych
- Ekosystem dużych zbiorów danych i nowe podejście do analizy
- Kluczowe technologie w dużych zbiorach danych
- Proces i problemy eksploracji danych
- Eksploracja wzorców asocjacyjnych
- Grupowanie danych
- Wykrywanie odstępstw
- Klasyfikacja danych
Wprowadzenie do cyklu życia analizy danych
- Odkrywanie
- Przygotowanie danych
- Planowanie modelu
- Budowa modelu
- Prezentacja/Komunikacja wyników
- Operacjonalizacja
- Ćwiczenie: Studium przypadku
Od tego momentu większość czasu szkolenia (80%) zostanie poświęcona na przykłady i ćwiczenia w R oraz powiązane technologie dużych zbiorów danych.
Rozpoczęcie pracy z R
- Instalacja R i Rstudio
- Cechy języka R
- Obiekty w R
- Dane w R
- Manipulacja danymi
- Problemy związane z dużymi zbiorami danych
- Ćwiczenia
Rozpoczęcie pracy z Hadoop
- Instalacja Hadoop
- Zrozumienie trybów Hadoop
- HDFS
- Architektura MapReduce
- Przegląd projektów związanych z Hadoop
- Pisanie programów w Hadoop MapReduce
- Ćwiczenia
Integracja R i Hadoop z RHadoop
- Składniki RHadoop
- Instalacja RHadoop i połączenie z Hadoop
- Architektura RHadoop
- Hadoop streaming z R
- Rozwiązywanie problemów analizy danych z RHadoop
- Ćwiczenia
Przetwarzanie wstępne i przygotowanie danych
- Kroki przygotowania danych
- Ekstrakcja cech
- Czyszczenie danych
- Integracja i transformacja danych
- Redukcja danych – próbkowanie, wybór podzbioru cech,
- Redukcja wymiarowości
- Dyskretyzacja i binowanie
- Ćwiczenia i studium przypadku
Metody eksploracyjnej analizy danych w R
- Statystyki opisowe
- Eksploracyjna analiza danych
- Wizualizacja – kroki wstępne
- Wizualizacja pojedynczej zmiennej
- Badanie wielu zmiennych
- Metody statystyczne do oceny
- Testowanie hipotez
- Ćwiczenia i studium przypadku
Wizualizacja danych
- Podstawowe wizualizacje w R
- Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice
- Formatowanie wykresów w R
- Zaawansowane wykresy
- Ćwiczenia
Regresja (Szacowanie przyszłych wartości)
- Regresja liniowa
- Przypadki użycia
- Opis modelu
- Diagnostyka
- Problemy z regresją liniową
- Metody redukcji, regresja grzbietowa, lasso
- Uogólnienia i nieliniowość
- Regresja spline'owa
- Lokalna regresja wielomianowa
- Uogólnione modele addytywne
- Regresja z RHadoop
- Ćwiczenia i studium przypadku
Klasyfikacja
- Problemy związane z klasyfikacją
- Powtórzenie z teorii Bayesa
- Naiwny Bayes
- Regresja logistyczna
- K-najbliżsi sąsiedzi
- Algorytm drzew decyzyjnych
- Sieci neuronowe
- Maszyny wektorów nośnych
- Diagnostyka klasyfikatorów
- Porównanie metod klasyfikacji
- Skalowalne algorytmy klasyfikacji
- Ćwiczenia i studium przypadku
Ocena wydajności i wybór modelu
- Błąd, wariancja i złożoność modelu
- Dokładność vs interpretowalność
- Ocena klasyfikatorów
- Miary wydajności modelu/algorytmu
- Metoda walidacji hold-out
- Kroswalidacja
- Dostrajanie algorytmów uczenia maszynowego z pakietem caret
- Wizualizacja wydajności modelu za pomocą krzywych Profit ROC i Lift
Metody zespołowe
- Bagging
- Lasy losowe
- Boosting
- Gradient boosting
- Ćwiczenia i studium przypadku
Maszyny wektorów nośnych do klasyfikacji i regresji
- Klasyfikatory maksymalnego marginesu
- Klasyfikatory wektorów nośnych
- Maszyny wektorów nośnych
- Maszyny wektorów nośnych do problemów klasyfikacji
- Maszyny wektorów nośnych do problemów regresji
- Ćwiczenia i studium przypadku
Identyfikacja nieznanych grup w zbiorze danych
- Wybór cech do grupowania
- Algorytmy oparte na reprezentantach: k-średnie, k-medoidy
- Algorytmy hierarchiczne: metody aglomeracyjne i dywizyjne
- Algorytmy probabilistyczne: EM
- Algorytmy oparte na gęstości: DBSCAN, DENCLUE
- Walidacja grupowania
- Zaawansowane koncepcje grupowania
- Grupowanie z RHadoop
- Ćwiczenia i studium przypadku
Odkrywanie połączeń z analizą linków
- Koncepcje analizy linków
- Metryki do analizy sieci
- Algorytm Pagerank
- Wyszukiwanie tematów indukowane hiperlinkami
- Przewidywanie linków
- Ćwiczenia i studium przypadku
Eksploracja wzorców asocjacyjnych
- Model eksploracji częstych wzorców
- Problemy skalowalności w eksploracji częstych wzorców
- Algorytmy brute force
- Algorytm Apriori
- Podejście FP growth
- Ocena kandydatów reguł
- Zastosowania reguł asocjacyjnych
- Walidacja i testowanie
- Diagnostyka
- Reguły asocjacyjne z R i Hadoop
- Ćwiczenia i studium przypadku
Budowa systemów rekomendacyjnych
- Zrozumienie systemów rekomendacyjnych
- Techniki eksploracji danych używane w systemach rekomendacyjnych
- Systemy rekomendacyjne z pakietem recommenderlab
- Ocena systemów rekomendacyjnych
- Rekomendacje z RHadoop
- Ćwiczenie: Budowa systemu rekomendacyjnego
Analiza tekstu
- Kroki analizy tekstu
- Zbieranie surowego tekstu
- Worek słów
- Częstość terminu – odwrotna częstość dokumentu
- Określanie sentymentu
- Ćwiczenia i studium przypadku
35 godzin
Opinie uczestników (2)
Intensywność, materiały szkoleniowe i ekspertyza, Jasność, Wspaniała komunikacja z Alessandrą
Marija Hornis Dmitrovic - Marija Hornis
Szkolenie - Data Science for Big Data Analytics
Przetłumaczone przez sztuczną inteligencję
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Szkolenie - Data Science for Big Data Analytics
Przetłumaczone przez sztuczną inteligencję