Kod kursu
d2dbdpa
Czas trwania
21 godzin
szkolenie zdalne: 3 lub 6 dni
szkolenie stacjonarne: 3 dni
Wymagania
Understanding of traditional data management and analysis methods like SQL, data warehouses, business intelligence, OLAP, etc... Understanding of basic statistics and probability (mean, variance, probability, conditional probability, etc....)
Opis
Publiczność
Jeśli próbujesz zrozumieć dane, do których masz dostęp lub chcesz analizować dane nieustrukturyzowane dostępne w sieci (np. Twitter, Połączone itp.), Ten kurs jest dla Ciebie.
Jest on skierowany głównie do decydentów i osób, które muszą wybrać, które dane są warte gromadzenia i co warto przeanalizować.
Nie jest on przeznaczony dla osób konfigurujących rozwiązanie, ale ci ludzie skorzystają z dużego obrazu.
Sposób dostawy
Podczas kursu delegaci zostaną zaprezentowani działające przykłady głównie technologii open source.
Po krótkich wykładach uczestnicy zapoznają się z prezentacją i prostymi ćwiczeniami
Wykorzystywane treści i oprogramowanie
Wszystkie używane programy są aktualizowane za każdym razem, gdy kurs jest uruchamiany, więc sprawdzamy najnowsze wersje.
Obejmuje proces od uzyskania, formatowania, przetwarzania i analizy danych, aby wyjaśnić, jak zautomatyzować proces podejmowania decyzji dzięki uczeniu maszynowemu.
Machine Translated
Plan Szkolenia
Quick Overview
- Data Sources
- Minding Data
- Recommender systems
- Target Marketing
Datatypes
- Structured vs unstructured
- Static vs streamed
- Attitudinal, behavioural and demographic data
- Data-driven vs user-driven analytics
- data validity
- Volume, velocity and variety of data
Models
- Building models
- Statistical Models
- Machine learning
Data Classification
- Clustering
- kGroups, k-means, the nearest neighbours
- Ant colonies, birds flocking
Predictive Models
- Decision trees
- Support vector machine
- Naive Bayes classification
- Neural networks
- Markov Model
- Regression
- Ensemble methods
ROI
- Benefit/Cost ratio
- Cost of software
- Cost of development
- Potential benefits
Building Models
- Data Preparation (MapReduce)
- Data cleansing
- Choosing methods
- Developing model
- Testing Model
- Model evaluation
- Model deployment and integration
Overview of Open Source and commercial software
- Selection of R-project package
- Python libraries
- Hadoop and Mahout
- Selected Apache projects related to Big Data and Analytics
- Selected commercial solution
- Integration with existing software and data sources