Szkolenia Statystyka

Statistics Training

Practical Applied Statistics courses

Podkategorie

Plany Szkoleń Statystyka

Identyfikator Nazwa Czas trwania (po 7h zegarowych dziennie) Przegląd
209790 Statystyka - kurs podstawowy 14 hours This course has been created for people who require general statistics skills. This course can be tailored to a specific area of expertise like market research, biology, manufacturing, public sector research, etc... Wstęp Statystyka Opisowa Wnioskowanie Statystyczne Demonstracja doboru próby Zmienne Percentyle Pomiary Rodzaje skali Demonstracja pomiarów Podstawy gromadzenia danych Rozkłady Notacja sumy Przekształcenie liniowe Ćwiczenia Wykresy Rozkładów Zmienne jakościowe Zmienne ilościowe Szeregi Rozdzielcze Histogramy Wieloboki Liczebności Wykresy Pudełkowe (Skrzynkowe) Demonstracja Wykresu Pudełkowego Wykresy Słupkowe (Kolumnowe) Wykresy Liniowe Ćwiczenia Podsumowanie Rozkładów Tendencja Centralna Co to jest Tendencja Centralna? Miara Tendencji Centralnej Rozkładu Skale Równowagi - Symulacja Różnice Bezwzględne - Symulacja Kwadraty Różnic - Symulacja Mediana i Średnia Arytmetyczna Mediana i Średnia Arytmetyczna -Symulacja Dodatkowe Miary Porównanie Miar Rozrzut Miary Rozrzutu Szacowanie Wariancji - Symulacja Kształty Rozkładu Porównanie Rozkładów- Demo Skutki Przekształceń Liniowych I Prawo Sumy Wariancji Ćwiczenia Rozkłady Normalne Historia Obszary Rozkładów Normalnych Różnice w Rozkładach Normalnych - Demonstracja Standardowy Rozkład Normalny Przybliżenie Rozkładu Dwumianowego Rozładem Normalnym Przybliżenie Rozkładem Normalnym - Demonstracja Ćwiczenia
296689 Programming with Big Data in R 21 hours Introduction to Programming Big Data with R (bpdR) Setting up your environment to use pbdR Scope and tools available in pbdR Packages commonly used with Big Data alongside pbdR Message Passing Interface (MPI) Using pbdR MPI 5 Parallel processing Point-to-point communication Send Matrices Summing Matrices Collective communication Summing Matrices with Reduce Scatter / Gather Other MPI communications Distributed Matrices Creating a distributed diagonal matrix SVD of a distributed matrix Building a distributed matrix in parallel   Statistics Applications Monte Carlo Integration Reading Datasets Reading on all processes Broadcasting from one process Reading partitioned data Distributed Regression Distributed Bootstrap 
417008 Hadoop for Developers 14 hours Introduction What is Hadoop? What does it do? How does it do it? The Motivation for Hadoop Problems with Traditional Large-Scale Systems Introducing Hadoop Hadoopable Problems Hadoop: Basic Concepts and HDFS The Hadoop Project and Hadoop Components The Hadoop Distributed File System Introduction to MapReduce MapReduce Overview Example: WordCount Mappers Reducers Hadoop Clusters and the Hadoop Ecosystem Hadoop Cluster Overview Hadoop Jobs and Tasks Other Hadoop Ecosystem Components Writing a MapReduce Program in Java Basic MapReduce API Concepts Writing MapReduce Drivers, Mappers, and Reducers in Java Speeding Up Hadoop Development by Using Eclipse Differences Between the Old and New MapReduce APIs Writing a MapReduce Program Using Streaming Writing Mappers and Reducers with the Streaming API Unit Testing MapReduce Programs Unit Testing The JUnit and MRUnit Testing Frameworks Writing Unit Tests with MRUnit Running Unit Tests Delving Deeper into the Hadoop API Using the ToolRunner Class Setting Up and Tearing Down Mappers and Reducers Decreasing the Amount of Intermediate Data with Combiners Accessing HDFS Programmatically Using The Distributed Cache Using the Hadoop API’s Library of Mappers, Reducers, and Partitioners Practical Development Tips and Techniques Strategies for Debugging MapReduce Code Testing MapReduce Code Locally by Using LocalJobRunner Writing and Viewing Log Files Retrieving Job Information with Counters Reusing Objects Creating Map-Only MapReduce Jobs Partitioners and Reducers How Partitioners and Reducers Work Together Determining the Optimal Number of Reducers for a Job Writing Customer Partitioners Data Input and Output Creating Custom Writable and Writable-Comparable Implementations Saving Binary Data Using SequenceFile and Avro Data Files Issues to Consider When Using File Compression Implementing Custom InputFormats and OutputFormats Common MapReduce Algorithms Sorting and Searching Large Data Sets Indexing Data Computing Term Frequency — Inverse Document Frequency Calculating Word Co-Occurrence Performing Secondary Sort Joining Data Sets in MapReduce Jobs Writing a Map-Side Join Writing a Reduce-Side Join Integrating Hadoop into the Enterprise Workflow Integrating Hadoop into an Existing Enterprise Loading Data from an RDBMS into HDFS by Using Sqoop Managing Real-Time Data Using Flume Accessing HDFS from Legacy Systems with FuseDFS and HttpFS An Introduction to Hive, Imapala, and Pig The Motivation for Hive, Impala, and Pig Hive Overview Impala Overview Pig Overview Choosing Between Hive, Impala, and Pig An Introduction to Oozie Introduction to Oozie Creating Oozie Workflows
238322 Przygotowanie do egzaminu CCAH (Certified Administrator for Apache Hadoop) 35 hours Kurs przeznaczony jest dla specjalistów z branży IT pracujących nad rozwiązaniami wymagającymi przechowywania i przetwarzania dużych zbiorów danych w systemach rozproszonych Cel szkolenia: zdobycie wiedzy na temat administracji systemem Apache Hadoop przygotowanie do egzaminu CCAH (Cloudera Certified Administrator for Apache Hadoop) 1: HDFS (38%) Funkcje poszczególnych daemonów systemu Apache Hadoop Przechowywanie i przetwarzanie danych w sytemie Hadoop W jakich okolicznościach powinniśmy wybrać system Hadoop Architektura i zasada działania HDFS Federacje HDFS HDFS High Availability Bezpieczeństwo HDFS (Kerberos) Proces odczytu i zapisu plików w HDFS 2: MapReduce (10%) Zasady działania MapReduce v1 Zasady działania MapReduce v2 (YARN) 3: Planowanie Klastra Systemu Hadoop (12%) Wybór sprzętu i systemu operacyjnego Analiza wymagań Dopasowywanie parametrów jądra i konfiguracji pamięci masowej Dopasowywanie konfiguracji sprzętowej do wymagań Skalowalność systemu: obciążenie procesora, pamięci operacyjnej, pamięci masowej (IO) oraz pojemności systemu Skalowalność na poziomie pamięci masowej: JBOD vs RAID, dyski sieciowe i wpływ wirtualizacji na wydajność systemu Topologie sieciowe: obiążenie sieci w systemie Hadoop (HDFS i MapReduce) i optymalizacja połączeń 4: Instalacja i Administracja Klastrem Systemu Hadoop (17%) Wpływ awarii na działanie klastra Monitorowanie logów Podstawowe metryki wykorzystywane przez klaster systemu Hadoop Narzędzia do monitorowania klastra systemu Hadoop Narzędzia do administracji klastrem systemu Hadoop 5: Zarządzanie Zasobami (6%) Architektura i funkcje kolejek Alokacja zasobów przez kolejki FIFO Alokacja zasobów przez kolejki sprawiedliwe Alokacja zasobów przez kolejki pojemnościowe 6: Monitorowanie i Logowanie (12%) Monitorowanie metryk Zarządzanie NameNodem i JobTrackerem z poziomu Web GUI Konfiguracja log4j Jak monitorować daemony systemu Hadoop Monitorowanie zurzycia CPU na kluczowych serwerach w klastrze Monitorowanie zurzycia pamięci RAM i swap Zarządzanie i przeglądanie logów Interpretacja logów 7: Środowisko Systemu Hadoop (5%) Narzędzia pomocnicze
416995 Machine Learning Fundamentals with R 14 hours The aim of this course is to provide a basic proficiency in applying Machine Learning methods in practice. Through the use of the R programming platform and its various libraries, and based on a multitude of practical examples this course teaches how to use the most important building blocks of Machine Learning, how to make data modeling decisions, interpret the outputs of the algorithms and validate the results. Our goal is to give you the skills to understand and use the most fundamental tools from the Machine Learning toolbox confidently and avoid the common pitfalls of Data Sciences applications. Introduction to Applied Machine Learning Statistical learning vs. Machine learning Iteration and evaluation Bias-Variance trade-off Regression Linear regression Generalizations and Nonlinearity Exercises Classification Bayesian refresher Naive Bayes Logistic regression K-Nearest neighbors Exercises Cross-validation and Resampling Cross-validation approaches Bootstrap Exercises Unsupervised Learning K-means clustering Examples Challenges of unsupervised learning and beyond K-means
463718 Wprowadzenie do Neo4j - grafowej bazy danych 7 hours Wprowadzenie do Neo4j Instalacja i konfiguracja Struktura aplikacji Neo4j Relacyjne i grafowe sposoby reprezentacji danych Model grafowy danych Czy zagadnienie można i powinno reprezentować się jako graf? Wybrane przypadki użycia i modelowanie wybranego zagadnienia Najważniejsze pojęcia modelu grafowego Neo4j: Węzeł Relacja Właściwość Etykieta Język zapytań Cypher i operacje na grafach Tworzenie i zarządzanie schematem za pomocą języka Cypher Operacje CRUD na danych Zapytania Cypher oraz ich odpowiedniki w SQL Algorytmy grafowe wykorzystywane w Neo4j Interfejs REST Podstawowe zagadnienia administracyjne Tworzenie i odtwarzanie kopii zapasowych Zarządzanie bazą z poziomu przeglądarki Import i eksport danych w uniwersalnych formatach
2985 Excel w analizie statystycznej 14 hours Kurs jes przeznaczony dla analityków, badaczy naukowych, statystyków, osób na co dzien wykorzystujących MS Excel w pracy oraz wszystkich tych którzy chcieliby poznać jakie możliwości daje analiza statystyczna w Excel. Kurs poprawia znajomość programu Excel, statystyki, analizy statystycznej oraz zwiększa efektywności i skuteczność pracy czy też prowadzonych badań. Szkolenie opisuje jak używać Analysis ToolPack w programie Microsoft Excel, funkcji statystycznych oraz jak wykonywać  procedury statystyczne. Szkolenie pokazuje ograniczenia Excela i wyjaśnia jak je przezwyciężyć.   Agregowanie danych w programie Excel Funkcje statystyczne Grupowanie Sumy częściowe Tabele przestawne Analiza Relacja danych Rozkład normalny Statystyka opisowa korelacja liniowa Analiza regresji Kowariancja Analiza danych w czasie Trendy / linii regresji Liniowa, logarytmiczna, wielomianowa, Power, wykładnicza, Przeprowadzka Wygładzanie Średni Analiza wahania sezonowe Populacje porównanie Przedział ufności dla średniej Test hipotezy o średniej populacji Różnica między średnią z dwóch populacji ANOVA: Analiza wariancji Goodness-of-Fit Test for Discrete Random Variables Test of Independence: Contingency Tables Testowanie hipotez dla wariancji dwóch populacji  prognozowanie ekstrapolacja
238323 Administrator Training for Apache Hadoop 35 hours Głównym celem szkolenia jest zdobycie wiedzy z administracji systemem Apache Hadoop w środowiskach MapReduce oraz YARN na poziomie zaawansowanym. Tematyka szkolenia dotyczy w głównej mierze architektury systemu Hadoop, a w szczególności systemu plików HDFS oraz modeli programistycznych MapReduce i YARN oraz zagadnień związanych z planowaniem, instalacją, konfiguracją, administracją, zarządzaniem i monitorowaniem klastra systemu Hadoop. Pozostałe zagadnienia związane z tematyką BigData takie jak HBase, Cassandra, Impala, Pig, Hiver oraz Sqoop są również omówione, choć pobieżnie. Kurs przeznaczony jest w głównej mierze do specjalistów z branży IT, którzy chcą przygotować się i zdać egzamin CCAH (Cloudera Certified administrator for Apache Hadoop). 1: HDFS (17%) Funkcje poszczególnych daemonów systemu Apache Hadoop Przechowywanie i przetwarzanie danych w sytemie Hadoop W jakich okolicznościach powinniśmy wybrać system Hadoop Architektura i zasada działania HDFS Federacje HDFS HDFS High Availability Bezpieczeństwo HDFS (Kerberos) Studiowanie przypadków Proces odczytu i zapisu plików w HDFS Interfejsk tekstowy HDFS 2: YARN i MapReduce w wersji 2 (MRv2) (17%): Konfiguracja YARN Wdrażanie YARN Architektura i zasada działania YARN Alokacja zasobów w YARN Przebieg wykonania zadań w YARN Migracja z MRv1 do YARN 3: Planowanie Klastra Systemu Hadoop (16%) Analiza wymagań i wybór sprzętu Analiza wymagań i wybór systemu operacyjnego Dobór parametrów jądra i konfiguracji pamięci masowej Dobór konfiguracji sprzętowej do wymagań Dobór podzespołów klastra i narzędzi pomocniczych Skalowalność systemu: obciążenie procesora, pamięci operacyjnej, pamięci masowej (IO) oraz pojemności systemu Skalowalność na poziomie pamięci masowej: JBOD vs RAID, dyski sieciowe i wpływ wirtualizacji na wydajność systemu Topologie sieciowe: obiążenie sieci w systemie Hadoop (HDFS i MapReduce) i optymalizacja połączeń 4: Instalacja i Administracja Klastrem Systemu Hadoop (25%) Wpływ awari na działanie klastra Monitorowanie logów Podstawowe metryki wykorzystywane przez klaster systemu Hadoop Narzędzia do monitorowania klastra systemu Hadoop Narzędzia pomocnicze: Impala, Flume, Oozie, Hue, Cloudera Manager, Sqoop, Hive, Pig i inne Narzędzia do administracji klastrem systemu Hadoop 5: Zarządzanie Zasobami (10%) Architektura i funkcje kolejek Alokacja zasobów przez kolejki FIFO Alokacja zasobów przez kolejki sprawiedliwe Alokacja zasobów przez kolejki pojemnościowe 6: Monitorowanie i Logowanie (15%) Monitorowanie metryk Zarządzanie NameNodem i JobTrackerem z poziomu Web GUI Jak monitorować daemony systemu Hadoop Monitorowanie zużycia CPU na kluczowych serwerach w klastrze Monitorowanie zużycia pamięci RAM i swap Zarządzanie i przeglądanie logów Interpretacja logów
417026 Advanced R Programming 7 hours This course is for data scientists and statisticians that already have basic R & C++ coding skills and R code and need advanced R coding skills. The purpose is to give a practical advanced R programming course to participants interested in applying the methods at work. Sector specific examples are used to make the training relevant to the audience R's environment Object oriented programming in R S3 S4  Reference classes Performance profiling Exception handling Debugging R code Creating R packages Unit testing C/C++ coding in R SEXPRs Calling dynamically loaded libraries from R Writing and compiling C/C++ code from R Improving R's performance with C++ linear algebra library
417091 Semantic Web Overview 7 hours The Semantic Web is a collaborative movement led by the World Wide Web Consortium (W3C) that promotes common formats for data on the World Wide Web. The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. Semantic Web Overview Introduction Purpose Standards Ontology Projects Resource Description Framework (RDF) Introduction Motivation and Goals RDF Concepts RDF Vocabulary URI and Namespace (Normative) Datatypes (Normative) Abstract Syntax (Normative) Fragment Identifiers
15086 Prognozowanie Rynku 14 hours Kurs został przygotowany dla menadżerów, analityków biznesowych, przedsiębiorców, którzy chcieliby usprawnić wykorzystywane metody prognozowania, jak również dla tych, którzy dopiero rozważają ich wprowadzenie. Omówione na kursie narzędzia oraz metody mogą zostać późnij zostosowane do : prognozowania sprzedaży, ustalania planów sprzedażowych, zarządzania kanałami sprzedaży prognozowania zachowania rynku, ryzyka ekonomicznego, zmian ekonomicznych prognozowania zmian technologicznych, prognozowania zapotrzebowania produktowego, zarządzania łańcuchem dostaw Kurs ma za zadanie pokazanie uczestnikom serii narzędzi, fremeworków, metodologii oraz algorytmów, przydatnych przy próbach przewidywania przyszłości opartych o analizę danych.  Podczas kursu, uczestnicy nauczą się również zastosowania omówionych metod w standardowych narzędziach takich jak MS Excel czy oprogramowaniu OpenSource' wym - R- pakiet statystyczny. Metody oraz zasady przedstawione na kursie mogą być bez problemu zaimplementowane do każdego innego oprogramowania (np. SAS, SPSS, Statistica, MINITAB ...itp.) Problems facing forecasters Customer demand planning Investor uncertainty Economic planning Seasonal changes in demand/utilization Roles of risk and uncertainty Time series methods Moving average Exponential smoothing Extrapolation Linear prediction Trend estimation Growth curve Econometric methods (casual methods) Regression analysis using linear regression or non-linear regression Autoregressive moving average (ARMA) Autoregressive integrated moving average (ARIMA) Econometrics Judgemental methods Surveys Delphi method Scenario building Technology forecasting Forecast by analogy Simulation and other methods Simulation Prediction market Probabilistic forecasting and Ensemble forecasting Reference class forecasting
238325 Administracja Hadoop 21 hours Głównym celem szkolenia jest zdobycie wiedzy z administracji systemem Apache Hadoop w środowisku MapReduce na poziomie podstawowym i średnio-zaawansowanym. Tematyka szkolenia dotyczy w głównej mierze architektury systemu Hadoop, a w szczególności systemu plików HDFS oraz modelu programistycznego MapReduce i zagadnień związanych z planowaniem, instalacją, konfiguracją i administracją klastra systemu Hadoop. Pozostałe zagadnienia związane z tematyką BigData takie jak HBase, Cassandra, Impala, YARN, Pig, Hiver oraz Sqoop są również omówione, choć pobieżnie. Kurs przeznaczony jest w głównej mierze do specjalistów z branży IT, którzy albo zamierzają podjąć pracę nad administracją systemu Hadoop, albo szukają rozwiązań do przechowywania i przetwarzania dużych zbiorów danych. Cel szkolenia: zdobycie wiedzy na temat administracji systemem Apache Hadoop Wprowadzenie do zagadnień z dziedziny Cloud Computing oraz Big Data Ewolucja systemu Apache Hadoop: HDFS, MapReduce, YARN Instalacja i konfiguracja systemu Hadoop w trybie pseudo-rozproszonym Uruchamianie programów opartych na modelu MapReduce w systemie Hadoop Planowanie, instalacja i konfiguracja klastrem Apache Hadoop Oprogramowanie pomocnicze: Pig, Hive, Sqoop, HBase Przyszłość rozwiązań Big Data: Impala, Cassandra
417013 Data Mining with R 14 hours Sources of methods Artificial intelligence Machine learning Statistics Sources of data Pre processing of data Data Import/Export Data Exploration and Visualization Dimensionality Reduction Dealing with missing values R Packages Data mining main tasks Automatic or semi-automatic analysis of large quantities of data Extracting previously unknown interesting patterns groups of data records (cluster analysis) unusual records (anomaly detection) dependencies (association rule mining) Data mining Anomaly detection (Outlier/change/deviation detection) Association rule learning (Dependency modeling) Clustering Classification Regression Summarization Frequent Pattern Mining Text Mining Decision Trees Regression Neural Networks Sequence Mining Frequent Pattern Mining Data dredging, data fishing, data snooping
463778 Survey Research, Sampling Techniques & Estimation 14 hours Survey research: Principle of sample survey design and implementation  survey preliminaries sampling methods (probability & non-probability methods) population & sampling frames survey data collection methods Questionnaire design Design and writing of questionnaires Pre-tests & piloting Planning & organisation of surveys Minimising errors, bias & non-response at the design stage  Survey data processing Commissioning surveys/research  Sample Techniques & Estimation: Sampling techniques and their strengths/weaknesses (may overlap above sampling methods) Simple Random Sampling Unequal Probability Sampling Stratified Sampling (with proportional to size & disproportional selection) Systematic Sampling Cluster sampling Multi-stage Sampling  Quota Sampling Estimation Methods of estimating sample sizes  Estimating population parameters using sample estimates Variance and confidence intervals estimation Estimating bias/precision  Methods of correcting bias Methods of handling missing data Non-response analysis
19107 Statistics for Managers 35 hours Kurs ten został stworzony dla decydentów, których głównym celem nie jest tworzenie obliczeń i analiz, ale ich zrozumienie. Zajęcia prowadzone są z wykorzystaniem wielu zdjęć, schematów, symulacji komputerowych, anegdot, poczucia humoru aby dokładnie wyjaśnić statystyczne zagadnienia i ustrzec uczestników przed pułapkami. Introduction to Statistics What are Statistics? Importance of Statistics Descriptive Statistics Inferential Statistics Variables Percentiles Measurement Levels of Measurement Basics of Data Collection Distributions Summation Notation Linear Transformations Common Pitfalls Biased samples Average, mean or median? Misleading graphs Semi-attached figures Third variable problem Ceteris paribus Errors in reasoning Understanding confidence level Understanding Results Describing Bivariate Data Probability Normal Distributions Sampling Distributions Estimation Logic of Hypothesis Testing Testing Means Power Prediction ANOVA Chi Square Case Studies Discussion about case studies chosen by the delegates.
295219 Statistical Thinking for Decision Makers 7 hours This course has been created for decision makers whose primary goal is not to do the calculation and the analysis, but to understand them and be able to choose what kind of statistical methods are relevant in strategic planning of the organization. For example, a prospect participant needs to make decision how many samples needs to be collected before they can make the decision whether the product is going to be launched or not. If you need longer course which covers the very basics of statistical thinking have a look at 5 day "Statistics for Managers" training. What statistics can offer to Decision Makers Descriptive Statistics Basic statistics - which of the statistics (e.g. median, average, percentiles etc...) are more relevant to different distributions Graphs - significance of getting it right (e.g. how the way the graph is created reflects the decision) Variable types - what variables are easier to deal with Ceteris paribus, things are always in motion Third variable problem - how to find the real influencer Inferential Statistics Probability value - what is the meaning of P-value Repeated experiment - how to interpret repeated experiment results Data collection - you can minimize bias, but not get rid of it Understanding confidence level Statistical Thinking Decision making with limited information how to check how much information is enough prioritizing goals based on probability and potential return (benefit/cost ratio ration, decision trees) How errors add up Butterfly effect Black swans What is Schrödinger's cat and what is Newton's Apple in business Cassandra Problem - how to measure a forecast if the course of action has changed Google Flu trends - how it went wrong How decisions make forecast outdated Forecasting - methods and practicality ARIMA Why naive forecasts are usually more responsive How far a forecast should look into the past? Why more data can mean worse forecast? Statistical Methods useful for Decision Makers Describing Bivariate Data Univariate data and bivariate data Probability why things differ each time we measure them? Normal Distributions and normally distributed errors Estimation Independent sources of information and degrees of freedom Logic of Hypothesis Testing What can be proven, and why it is always the opposite what we want (Falsification) Interpreting the results of Hypothesis Testing Testing Means Power How to determine a good (and cheap) sample size False positive and false negative and why it is always a trade-off
118127 Model MapReduce w implementacji oprogramowania Apache Hadoop 14 hours Szkolenie skierowane jest do organizacji chcących wdrożyć rozwiązania pozwalające na przetwarzanie dużych zbiorów danych za pomocą klastrów. Data Mining i Bussiness Intelligence Wprowadzenie Obszary zastosowań Możliwości Podstawy eksploracji danych i odkrywania wiedzy Big data Co rozumiemy pod pojęciem Big data? Big data a Data mining MapReduce Opis modelu Przykładowe zastosowanie Statystyki Model klastra Hadoop Czym jest Hadoop Instalacja Podstawowa konfiguracja Ustawienia klastra Architektura i konfiguracja Hadoop Distributed File System Komendy i obsługa z konsoli Narzędzie DistCp MapReduce i Hadoop Streaming Administracja i konfiguracja Hadoop On Demand Alternatywne rozwiązania
463779 Data Shrinkage for Government 14 hours Why shrink data Relational databases Introduction Aggregation and disaggregation Normalisation and denormalisation Null values and zeroes Joining data Complex joins Cluster analysis Applications Strengths and weaknesses Measuring distance Hierarchical clustering K-means and derivatives Applications in Government Factor analysis Concepts Exploratory factor analysis Confirmatory factor analysis Principal component analysis Correspondence analysis Software Applications in Government Predictive analytics Timelines and naming conventions Holdout samples Weights of evidence Information value Scorecard building demonstration using a spreadsheet Regression in predictive analytics Logistic regression in predictive analytics Decision Trees in predictive analytics Neural networks Measuring accuracy Applications in Government
296305 Data Science w biznesie 35 hours Data science jest nowym pojęciem które w znacznej mierze odświeża wizerunek jaki ma w powszechnym rozumieniu statystyka, a w szczególności analityka biznesowa. Nate Silver, autor bestselerowej The Signal and the Noise stwierdził, że pozwala to na bardziej „seksowne” określenie zawodu statystyka. Podobnie rzecz się ma z analityką biznesową. W całkowicie nieuzasadniony sposób zakłada się, że analitycy biznesowi nie zauważają postępu w technologii i nie rozwijają się z upływem czasu. Dla potrzeb reklamowych taki w znacznej mierze redundantny termin jak data science jest całkiem przydatny, ale pamiętajmy, że analitycy biznesowi i statystycy od dawna zajmowali się problemami które obecnie, głównie ze względu na postęp technologii, stały się tak popularne. 1. Logika analityki danych biznesowych 1.1 Powszechność możliwości wykorzystywania danych 1.2 Dwa przykłady - huragany i zachowanie klientów 1.3 Data science, inżynieria i podejmowanie decyzji bazujące na danych 1.4 Przetwarzanie danych i „Big Data” 1.5 Od Big Data 1.0 do Big Data 2.0 1.6 Dane i analityka danych jako aktywa strategiczne 1.6 Logika analityki danych - podsumowanie 2. Problemy biznesowe i rozwiązania wykorzystujące data science 2.1 Od problemu biznesowego do eksploracji danych 2.2 Metody nadzorowane i nienadzorowane 2.3 Eksploracja danych i jej wyniki 2.4 Konsekwencje zarządzania przedsięwzięciami data science 2.5 Techniki i technologie analityczne 2.6 Podsumowanie 3. Modelowanie predykcyjne - od korelacji do nadzorowanej segmentacji 3.1 Modele, indukcja i prognozowanie 3.2 Nadzorowana segmentacja 3.3 Wizualizacja wyników 3.4 Drzewa jako zbiory reguł 3.5 Estymacja prawdopodobieństwa 3.6 Analiza przypadku 3.7 Podsumowanie 4. Dopasowywanie modelu do danych 4.1 Klasyfikacja za pomocą funkcji matematycznych 4.2 Regresja 4.3 Estymacja prawdopodobieństwa klasy i „regresja” logistyczna 4.4 Funkcje nieliniowe 4.5 Sieci neuronowe 4.6 Podsumowanie 5. Nadmierne dopasowanie i sposoby jego unikania 5.1 Generalizacja 5.2 Nadmierne dopasowanie 5.3 Analiza problemu nadmiernego dopasowania 5.4 Przykłady 5.5 Techniki unikania nadmiernego dopasowania 5.6 Krzywe uczenia 5.7 Kontrola złożoności 5.8 Podsumowanie 6. Podobieństwo, sąsiedztwo i skupienia 6.1 Podobieństwo i miara odległości 6.2 Najbliższe sąsiedztwo i reguły wnioskowania 6.3 Kluczowe techniki 6.4 Analiza skupień 6.5 Zastosowania w rązwiązywaniu problemów biznesowych 7. Kiedy model jest dobry? 7.1 Klasyfikatory stosowane w ewaluacji modelu 7.2 Uogólnienia przekraczające granice klasyfikacji 7.3 Ramy analityczne 7.4 Przykłady zastosowania technik podstawowych ewaluacji 7.5 Podsumowanie 8. Wizualizacja modelu 8.1 Zastosowanie rang 8.2 Krzywe zysku 8.3 Krzywe i grafy ROC (Receiver Operating Characteristics) 8.4 Powierzchnia pod krzywą ROC 8.5 Skumulowana odpowiedź 8.6 Przykłady 8.7 Podsumowanie 9. Dowody i prawdopodobieństwa 9.1 Przykład - ukierunkowanie na klienta 9.2 Probabilistyczne połączenia dowodów 9.3 Zastosowanie reguł Bayesa 9.4 Budowanie modelu 9.5 Przykład zastosowania modelu 9.6 Podsumowanie 10. Reprezentowanie i eksploracja tekstu 10.1 Dlaczego tekst jest ważny? 10.2 Dlaczego praca z tekstem jest trudna? 10.3 Reprezentacja 10.4 Przykład 10.5 Entropia i tekst 10.6 To nie worek na słowa 10.7 Eksploracja wiadomości 10.8 Podsumowanie 11. Inżynieria analityczna - analiza przypadków 12. Inne zadania i techniki 12.1 Współwystąpienia i asocjacje 12.2 Profilowanie 12.3 Prognozowanie powiązań 12.4 Redukcja i selekcja informacji 12.5 Przekłamania, zniekształcenia i wariancja 12.6 Analiza przypadków 12.7 Podsumowanie 13. Strategia biznesowa i data science 13.1 Redux 13.2 Osiąganie przewagi konkurencyjnej 13.3 Utrzymywanie przewagi 13.4 Pozyskiwanie zasobów 13.5 Nowe idee i rozwój 13.6 Dojrzałość organizacji 14. Jak prowadzić przeglądy projektów z zakresu data science 15. Zakończenie
164951 Apache Solr - serwer wyszukiwania pełnotekstowego 14 hours Szkolenie skierowane jest do osób, które poszukują narzędzia ułatwiającego przeszukiwanie pełnotekstowe dużych zasobów danych. Wprowadzenie Apache Lucene Czym jest Solr Instalacja Shemat i analiza tekstu Modelowanie schematu Konfiguracja schema.xml Analiza tekstu Tworzenie indeksu Importowanie danych z popularnch formatów Indeksowanie dokumentów Korzystanie z API Solr Wyszukiwanie Podstawy budowy kwerend Sortowanie i filtrowanie Wykorzystanie scoringu Podstawy funkcji Obsługa rządań Formatowanie wyników wyszukiwania Faceting Zaawansowane zagadnienia Wdrażanie i konfiguracja serwera Integracja Solr z innymi bibliotekami/mechanizmami Komponenty wyszukiwania Zagadniania związane ze skalowaniem

Upcoming Courses

SzkolenieData KursuCena szkolenia [Zdalne/Stacjonarne]
Introduction to R - Wrocławśr., 2015-08-26 09:303075PLN / 2174PLN
Statistics Level 2 - Poznańwt., 2015-09-29 09:303125PLN / 2424PLN
Szkolenie Statystyka, Kurs Statystyka,Kursy Statystyka, Trener Statystyka, Szkolenia Zdalne Statystyka, instruktor Statystyka, szkolenie wieczorowe Statystyka, szkolenie weekendowe Statystyka, kurs zdalny Statystyka, edukacja zdalna Statystyka, nauczanie wirtualne Statystyka, lekcje UML, e-learning Statystyka, kurs online Statystyka, wykładowca Statystyka, Statystyka boot camp

Some of our clients