Bądźmy w kontakcie

Plan Szkolenia

Wprowadzenie do nauki o danych dla analizy dużych zbiorów danych

  • Przegląd nauki o danych
  • Przegląd dużych zbiorów danych
  • Struktury danych
  • Czynniki i złożoności dużych zbiorów danych
  • Ekosystem dużych zbiorów danych i nowe podejście do analizy
  • Kluczowe technologie w dużych zbiorach danych
  • Proces i problemy eksploracji danych
    • Eksploracja wzorców asocjacyjnych
    • Grupowanie danych
    • Wykrywanie odstępstw
    • Klasyfikacja danych

Wprowadzenie do cyklu życia analizy danych

  • Odkrywanie
  • Przygotowanie danych
  • Planowanie modelu
  • Budowa modelu
  • Prezentacja/Komunikacja wyników
  • Operacjonalizacja
  • Ćwiczenie: Studium przypadku

Od tego momentu większość czasu szkolenia (80%) zostanie poświęcona na przykłady i ćwiczenia w R oraz powiązane technologie dużych zbiorów danych.

Rozpoczęcie pracy z R

  • Instalacja R i Rstudio
  • Cechy języka R
  • Obiekty w R
  • Dane w R
  • Manipulacja danymi
  • Problemy związane z dużymi zbiorami danych
  • Ćwiczenia

Rozpoczęcie pracy z Hadoop

  • Instalacja Hadoop
  • Zrozumienie trybów Hadoop
  • HDFS
  • Architektura MapReduce
  • Przegląd projektów związanych z Hadoop
  • Pisanie programów w Hadoop MapReduce
  • Ćwiczenia

Integracja R i Hadoop z RHadoop

  • Składniki RHadoop
  • Instalacja RHadoop i połączenie z Hadoop
  • Architektura RHadoop
  • Hadoop streaming z R
  • Rozwiązywanie problemów analizy danych z RHadoop
  • Ćwiczenia

Przetwarzanie wstępne i przygotowanie danych

  • Kroki przygotowania danych
  • Ekstrakcja cech
  • Czyszczenie danych
  • Integracja i transformacja danych
  • Redukcja danych – próbkowanie, wybór podzbioru cech,
  • Redukcja wymiarowości
  • Dyskretyzacja i binowanie
  • Ćwiczenia i studium przypadku

Metody eksploracyjnej analizy danych w R

  • Statystyki opisowe
  • Eksploracyjna analiza danych
  • Wizualizacja – kroki wstępne
  • Wizualizacja pojedynczej zmiennej
  • Badanie wielu zmiennych
  • Metody statystyczne do oceny
  • Testowanie hipotez
  • Ćwiczenia i studium przypadku

Wizualizacja danych

  • Podstawowe wizualizacje w R
  • Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice
  • Formatowanie wykresów w R
  • Zaawansowane wykresy
  • Ćwiczenia

Regresja (Szacowanie przyszłych wartości)

  • Regresja liniowa
  • Przypadki użycia
  • Opis modelu
  • Diagnostyka
  • Problemy z regresją liniową
  • Metody redukcji, regresja grzbietowa, lasso
  • Uogólnienia i nieliniowość
  • Regresja spline'owa
  • Lokalna regresja wielomianowa
  • Uogólnione modele addytywne
  • Regresja z RHadoop
  • Ćwiczenia i studium przypadku

Klasyfikacja

  • Problemy związane z klasyfikacją
  • Powtórzenie z teorii Bayesa
  • Naiwny Bayes
  • Regresja logistyczna
  • K-najbliżsi sąsiedzi
  • Algorytm drzew decyzyjnych
  • Sieci neuronowe
  • Maszyny wektorów nośnych
  • Diagnostyka klasyfikatorów
  • Porównanie metod klasyfikacji
  • Skalowalne algorytmy klasyfikacji
  • Ćwiczenia i studium przypadku

Ocena wydajności i wybór modelu

  • Błąd, wariancja i złożoność modelu
  • Dokładność vs interpretowalność
  • Ocena klasyfikatorów
  • Miary wydajności modelu/algorytmu
  • Metoda walidacji hold-out
  • Kroswalidacja
  • Dostrajanie algorytmów uczenia maszynowego z pakietem caret
  • Wizualizacja wydajności modelu za pomocą krzywych Profit ROC i Lift

Metody zespołowe

  • Bagging
  • Lasy losowe
  • Boosting
  • Gradient boosting
  • Ćwiczenia i studium przypadku

Maszyny wektorów nośnych do klasyfikacji i regresji

  • Klasyfikatory maksymalnego marginesu
    • Klasyfikatory wektorów nośnych
    • Maszyny wektorów nośnych
    • Maszyny wektorów nośnych do problemów klasyfikacji
    • Maszyny wektorów nośnych do problemów regresji
  • Ćwiczenia i studium przypadku

Identyfikacja nieznanych grup w zbiorze danych

  • Wybór cech do grupowania
  • Algorytmy oparte na reprezentantach: k-średnie, k-medoidy
  • Algorytmy hierarchiczne: metody aglomeracyjne i dywizyjne
  • Algorytmy probabilistyczne: EM
  • Algorytmy oparte na gęstości: DBSCAN, DENCLUE
  • Walidacja grupowania
  • Zaawansowane koncepcje grupowania
  • Grupowanie z RHadoop
  • Ćwiczenia i studium przypadku

Odkrywanie połączeń z analizą linków

  • Koncepcje analizy linków
  • Metryki do analizy sieci
  • Algorytm Pagerank
  • Wyszukiwanie tematów indukowane hiperlinkami
  • Przewidywanie linków
  • Ćwiczenia i studium przypadku

Eksploracja wzorców asocjacyjnych

  • Model eksploracji częstych wzorców
  • Problemy skalowalności w eksploracji częstych wzorców
  • Algorytmy brute force
  • Algorytm Apriori
  • Podejście FP growth
  • Ocena kandydatów reguł
  • Zastosowania reguł asocjacyjnych
  • Walidacja i testowanie
  • Diagnostyka
  • Reguły asocjacyjne z R i Hadoop
  • Ćwiczenia i studium przypadku

Budowa systemów rekomendacyjnych

  • Zrozumienie systemów rekomendacyjnych
  • Techniki eksploracji danych używane w systemach rekomendacyjnych
  • Systemy rekomendacyjne z pakietem recommenderlab
  • Ocena systemów rekomendacyjnych
  • Rekomendacje z RHadoop
  • Ćwiczenie: Budowa systemu rekomendacyjnego

Analiza tekstu

  • Kroki analizy tekstu
  • Zbieranie surowego tekstu
  • Worek słów
  • Częstość terminu – odwrotna częstość dokumentu
  • Określanie sentymentu
  • Ćwiczenia i studium przypadku
 35 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie