Plan Szkolenia

Wprowadzenie do analizy danych i Big Data

  • Co sprawia, że Big Data jest „Big”?
    • Prędkość, objętość, różnorodność, wiarygodność (VVVV)
  • Ograniczenia tradycyjnego przetwarzania danych
  • Przetwarzanie rozproszone
  • Analiza statystyczna
  • Rodzaje analizy uczenia maszynowego
  • Wizualizacja danych

Role i obowiązki w Big Data

  • Administratorzy
  • Deweloperzy
  • Analitycy danych

Języki używane do analizy danych

  • Język R
    • Dlaczego R do analizy danych?
    • Manipulacja, obliczenia i graficzna prezentacja danych
  • Python
    • Dlaczego Python do analizy danych?
    • Manipulowanie, przetwarzanie, czyszczenie i przetwarzanie danych

Podejścia do analizy danych

  • Analiza statystyczna
    • Analiza szeregów czasowych
    • Prognozowanie z wykorzystaniem modeli korelacji i regresji
    • Statystyka inferencyjna (szacowanie)
    • Statystyka opisowa w dużych zbiorach danych (np. obliczanie średniej)
  • Uczenie maszynowe
    • Uczenie nadzorowane vs nienadzorowane
    • Klasyfikacja i grupowanie
    • Szacowanie kosztów konkretnych metod
    • Filtrowanie
  • Przetwarzanie języka naturalnego
    • Przetwarzanie tekstu
    • Zrozumienie znaczenia tekstu
    • Automatyczne generowanie tekstu
    • Analiza sentymentu/analiza tematyczna
  • Przetwarzanie obrazu
    • Pozyskiwanie, przetwarzanie, analizowanie i rozumienie obrazów
    • Rekonstruowanie, interpretowanie i rozumienie scen 3D
    • Wykorzystanie danych obrazowych do podejmowania decyzji

Infrastruktura Big Data

  • Przechowywanie danych
    • Bazy relacyjne (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Bazy nierelacyjne (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Zrozumienie niuansów
      • Bazy hierarchiczne
      • Bazy obiektowe
      • Bazy dokumentowe
      • Bazy grafowe
      • Inne
  • Przetwarzanie rozproszone
    • Hadoop
      • HDFS jako rozproszony system plików
      • MapReduce do przetwarzania rozproszonego
    • Spark
      • Wszechstronne środowisko obliczeń klastrowych w pamięci do przetwarzania danych na dużą skalę
      • Strukturalne przetwarzanie strumieniowe
      • Spark SQL
      • Biblioteki do uczenia maszynowego: MLlib
      • Przetwarzanie grafów z GraphX
  • Skalowalność
    • Chmura publiczna
      • AWS, Google, Aliyun itp.
    • Chmura prywatna
      • OpenStack, Cloud Foundry itp.
    • Automatyczna skalowalność

Wybór odpowiedniego rozwiązania dla problemu

Przyszłość Big Data

Podsumowanie i kolejne kroki

Wymagania

  • Ogólne zrozumienie matematyki
  • Ogólne zrozumienie programowania
  • Ogólne zrozumienie baz danych

Grupa docelowa

  • Deweloperzy/programiści
  • Konsultanci IT
 35 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie