Plan Szkolenia

Każda sesja trwa 2 godziny

Dzień-1: Sesja -1: Biznesowy przegląd, dlaczego Big Data Business Intelligence w organach rządowych

  • Studia przypadków z NIH, DoE
  • Tempo przyjmowania Big Data przez organy rządowe i jak dopasowują swoją przyszłą działalność do analizy predykcyjnej Big Data
  • Szeroki zakres zastosowań w DoD, NSA, IRS, USDA itp.
  • Interfacing Big Data z przestarzałymi danymi
  • Podstawowe zrozumienie technologii w predykcyjnej analizie danych
  • Integracja danych i wizualizacja tablicy rozdzielczości
  • Zarządzanie oszustwami
  • Generowanie reguł biznesowych/detekcji oszustw
  • Wykrywanie i profilowanie zagrożeń
  • Analiza kosztów i zysków z implementacji Big Data

Dzień-1: Sesja-2 : Wprowadzenie do Big Data-1

  • Główna charakterystyka Big Data — objętość, zróżnicowanie, prędkość i wiarygodność. Architektura MPP dla objętości.
  • Magazyny danych — statyczna struktura, wolno ewoluujący zestaw danych
  • Bazy danych MPP takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop — bez warunków struktury zestawu danych.
  • Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Partia — odpowiednie do analizy/nieinteraktywnych
  • Objętość: strumieniowanie danych CEP
  • Typowe wybory — produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji — Storm/S4
  • Bazy danych NoSQL (kolumnarne i klucz-wartość): najlepsze jako analityczny dodatek do magazynu/bazy danych

Dzień-1 : Sesja -3 : Wprowadzenie do Big Data-2

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchiczny) - GT.m, Cache
  • KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektów - ZopeDB, DB40, Shoal
  • Magazyn dokumentów - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Rodzaje danych: Wprowadzenie do problemu czyszczenia danych w Big Data

  • RDBMS — statyczna struktura/schemat, nie sprzyja zwinnej, eksploracyjnej środowisku.
  • NoSQL — półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
  • Problemy czyszczenia danych

Dzień-1 : Sesja-4 : Wprowadzenie do Big Data-3: Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURYZOWANE — przedsiębiorstwa mogą przechowywać ogromne ilości danych (z kosztami), ale narzucają strukturę (nie przeszkadza to w aktywnej eksploracji)
  • DANE POŁUSTRUKTURYZOWANE — trudno jest to zrobić za pomocą tradycyjnych rozwiązań (DW/DB)
  • Magazynowanie danych = ogromne wysiłki i statyczność nawet po implementacji
  • Dla zróżnicowanych i objętych danymi, przetwarzanych na niewielkich sprzętach — HADOOP
  • Wykorzystanie taniego sprzętu do stworzenia klastra Hadoop

Wprowadzenie do Map Reduce/HDFS

  • MapReduce — rozproszone przetwarzanie na wielu serwerach
  • HDFS — lokalna dostępność danych dla procesów obliczeniowych (z nadmiarowością)
  • Dane — mogą być niestrukturyzowane/bezschematowe (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za zrozumienie danych
  • Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień-2: Sesja-1: Eko-system Big Data-Budowanie Big Data ETL: świat narzędzi Big Data — które wybrać i kiedy?

  • Hadoop vs. inne rozwiązania NoSQL
  • Dla interaktywnego, losowego dostępu do danych
  • Hbase (bazodanowy kolumnowy) na platformie Hadoop
  • Losowy dostęp do danych, ale z narzuceniem ograniczeń (maks. 1 PB)
  • Nie odpowiednie dla ad-hoc analiz, dobre dla logowania, liczenia, szeregów czasowych
  • Sqoop - Importowanie z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume — strumieniowanie danych (np. logów) do HDFS

Dzień-2: Sesja-2: System zarządzania Big Data

  • Ruchowe części, uruchamianie/zakazywanie węzłów obliczeniowych: ZooKeeper — dla konfiguracji/koordynacji/usług nazewnictwa
  • Złożone potoki/przezprocesy: Oozie — zarządzanie przepływem pracy, zależnościami, łańcuszkami
  • Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacje itp. (administracja systemów): Ambari
  • W chmurze: Whirr

Dzień-2: Sesja-3: Predykcyjna analiza w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:

  • Wprowadzenie do uczenia maszynowego
  • Techniki klasyfikacji
  • Bayesian Prediction — przygotowywanie pliku treningowego
  • Support Vector Machine (SVM)
  • KNN p-Tree Algebra & mining wertykalny
  • Sieci neuronowe
  • Problem dużych zmiennych Big Data — Random Forest (RF)
  • Problem automatyzacji Big Data — Multi-model ensemble RF
  • Automatyzacja poprzez Soft10-M
  • Narzędzie analizy tekstu — Treeminer
  • Zwinne uczenie
  • Uczenie oparte na agentach
  • Rozproszone uczenie
  • Wprowadzenie do otwartoźródłowych narzędzi predykcyjnej analizy: R, Rapidminer, Mahout

Dzień-2: Sesja-4 Eko-system predykcyjnej analizy-2: Powszechne problemy predykcyjnej analizy w organach rządowych

  • Analiza spostrzegawcza
  • Analiza wizualna
  • Strukturyzowana analiza predykcyjna
  • Niestrukturyzowana analiza predykcyjna
  • Profilowanie zagrożeń/oszustw/dostawców
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrycie reguł/scenariuszy — awaria, oszustwo, optymalizacja
  • Analiza przyczyn głębokich
  • Analiza sentymentu
  • Analiza CRM (Customer Relationship Management)
  • Analiza sieciowa
  • Analiza tekstu
  • Technologia wspomagana rewizja
  • Analiza oszustw
  • Analiza w czasie rzeczywistym

Dzień-3 : Sesja-1: Analiza w czasie rzeczywistym i skalowalna na Hadoop

  • Dlaczego zwykłe algorytmy analizy danych nie działają w Hadoop/HDFS
  • Apache Hama — dla rozproszonego przetwarzania synchronicznego
  • Apache SPARK — dla przetwarzania klastrowego w czasie rzeczywistym
  • CMU Graphics Lab2 — asynchroniczne podejście do rozproszonego przetwarzania oparte na grafach
  • Podejście KNN p-Algebra z Treeminer do zmniejszenia kosztów sprzętowych operacji

Dzień-3: Sesja-2: Narzędzia dla eDiscovery i forenziki

  • eDiscovery na Big Data vs. dane przestarzałe — porównanie kosztów i wydajności
  • Predykcyjne kodowanie i technologia wspomagana rewizja (TAR)
  • Na żywo prezentacja produktu TAR (vMiner) w celu zrozumienia, jak działa TAR dla szybszej rewizji
  • Szybsze indeksowanie poprzez HDFS — prędkość danych
  • NLP (Przetwarzanie języka naturalnego) — różne techniki i otwartoźródłowe produkty
  • eDiscovery w obcych językach — technologie przetwarzania języków obcych

Dzień-3 : Sesja 3: Big Data BI dla zabezpieczeń cyfrowych — Zrozumienie pełnego widoku 360 stopni od szybkiego zbierania danych do identyfikacji zagrożeń

  • Zrozumienie podstaw analizy zabezpieczeń — powierzchnia ataku, błędy konfiguracji zabezpieczeń, obrona hosta
  • Infrastruktura sieciowa/duże potoki danych/ETL odpowiedzi dla analizy w czasie rzeczywistym
  • Preskryptywna vs predykcyjna — stałe reguły oparte na metadanych vs automatyczne odkrywanie zasad zagrożeń

Dzień-3: Sesja 4: Big Data w USDA : Zastosowanie w rolnictwie

  • Wprowadzenie do IoT (Internet of Things) dla rolnictwa — sensorowe Big Data i kontrola
  • Wprowadzenie do obrazów satelitarnych i ich zastosowania w rolnictwie
  • Integracja danych z czujników i obrazów dla płodności gleby, rekomendacji uprawy i prognozowania
  • Ubezpieczenia rolnicze i Big Data
  • Prognozowanie strat upraw

Dzień-4 : Sesja-1: BI zapobiegające oszustwom z Big Data w organach rządowych — analiza oszustw:

  • Podstawowa klasyfikacja analizy oszustw — regułowa vs predykcyjna
  • Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwa dostawców/nadpłaty za projekty
  • Oszustwa Medicare i Medicaid — techniki wykrywania oszustw przy przetwarzaniu roszczeń
  • Oszustwa z odszkodowaniami za podróże
  • Oszustwa zwrotów podatkowych IRS
  • Studia przypadków i na żywo prezentacje będą przedstawione tam, gdzie dane są dostępne.

Dzień-4 : Sesja-2: Analiza mediów społecznościowych — zebranie i analiza wywiadu

  • Big Data ETL API do pozyskiwania danych z mediów społecznościowych
  • Tekst, obrazy, metadane i filmy wideo
  • Analiza sentymentu z wykazów mediów społecznościowych
  • Filtracja kontekstowa i niekontekstualna wykazów mediów społecznościowych
  • Tablica rozdzielczości mediów społecznościowych do integracji z różnorodnymi mediami społecznościowymi
  • Automatyczne profilowanie kont mediów społecznościowych
  • Na żywo prezentacja każdej analizy zostanie pokazana za pomocą narzędzia Treeminer.

Dzień-4 : Sesja-3: Analiza Big Data w przetwarzaniu obrazów i strumieniach wideo

  • Techniki przechowywania obrazów w Big Data — rozwiązania przechowywania danych przekraczających petabajty
  • LTFS i LTO
  • GPFS-LTFS (warstwowe rozwiązanie przechowywania dla dużych danych obrazowych)
  • Podstawy analizy obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazów
  • Śledzenie ruchu
  • 3-D rekonstrukcja obrazów

Dzień-4: Sesja-4: Zastosowania Big Data w NIH:

  • Rozwijające się obszary bioinformatyki
  • Meta-genomika i problemy wydobywania danych Big Data
  • Predykcyjna analiza Big Data dla farmakogenetyki, metabolomiki i proteomiki
  • Big Data w procesie genomiki strumieniowej
  • Zastosowanie predykcyjnej analizy Big Data w ochronie zdrowia publicznego

Tablica rozdzielczości Big Data dla szybkiego dostępu do różnorodnych danych i ich wyświetlania:

  • Integracja istniejącej platformy aplikacji z tablicą rozdzielczości Big Data
  • Zarządzanie Big Data
  • Studium przypadku tablicy rozdzielczości Big Data: Tableau i Pentaho
  • Wykorzystanie aplikacji Big Data do przesyłania usług lokalizacyjnych w organach rządowych
  • System śledzenia i zarządzania

Dzień-5 : Sesja-1: Jak uzasadnić implementację Big Data BI w organizacji:

  • Definiowanie ROI (Zwrotu na Inwestycję) dla implementacji Big Data
  • Studia przypadków oszczędności czasu analityka przy zbieraniu i przygotowywaniu danych — wzrost produktywności
  • Studia przypadków zysku z oszczędności na kosztach licencjonowanych baz danych
  • Zysk z usług lokalizacyjnych
  • Oszczędności dzięki zapobieganiu oszustwom
  • Zintegrowane podejście arkusza kalkulacyjnego do obliczenia przybliżonych kosztów vs. zysków/oszczędności z implementacji Big Data.

Dzień-5 : Sesja-2: Krok po kroku procedura zamiany przestarzałego systemu danych na system Big Data:

  • Zrozumienie praktycznej mapy trasy migracji Big Data
  • Jakie informacje są ważne przed architekturą implementacji Big Data
  • Różne sposoby obliczania objętości, prędkości, zróżnicowania i wiarygodności danych
  • Jak oszacować wzrost danych
  • Studia przypadków

Dzień-5: Sesja 4: Przegląd dostawców Big Data i ich produktów. Sesja Q&A:

  • Accenture
  • APTEAN (wcześniej CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (wcześniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Wymagania

1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)

 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie