Bądźmy w kontakcie

Plan Szkolenia

Każda sesja trwa 2 godziny

Dzień 1: Sesja 1: Przegląd biznesowy – dlaczego Big Data Business Intelligence w rządzie

  • Studia przypadków z NIH, DoE
  • Tempo adaptacji Big Data w agencjach rządowych i jak dostosowują one swoje przyszłe operacje wokół predykcyjnej analityki Big Data
  • Szerokie obszary zastosowań w DoD, NSA, IRS, USDA itp.
  • Integracja Big Data z danymi legacy
  • Podstawowe zrozumienie technologii umożliwiających predykcyjną analitykę
  • Integracja danych i wizualizacja na dashboardach
  • Zarządzanie oszustwami
  • Generowanie reguł biznesowych/wykrywanie oszustw
  • Wykrywanie i profilowanie zagrożeń
  • Analiza kosztów i korzyści wdrożenia Big Data

Dzień 1: Sesja 2: Wprowadzenie do Big Data-1

  • Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność. Architektura MPP dla objętości.
  • Magazyny danych – statyczny schemat, wolno ewoluujący zbiór danych
  • Bazy danych MPP, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop – brak warunków dotyczących struktury zbioru danych.
  • Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
  • Objętość: strumieniowe dane CEP
  • Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji – Storm/S4
  • Bazy danych NoSQL – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie magazynu danych/bazy danych

Dzień 1: Sesja 3: Wprowadzenie do Big Data-2

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchiczny) - GT.m, Cache
  • KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektowych - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data

  • RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
  • NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
  • Problemy z czyszczeniem danych

Dzień 1: Sesja 4: Wprowadzenie do Big Data-3: Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURALNE – Magazyny danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (za koszt), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
  • Dane CZĘŚCIOWO STRUKTURALNE – trudne do realizacji za pomocą tradycyjnych rozwiązań (DW/DB)
  • Magazynowanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
  • Dla różnorodności i objętości danych, przetwarzane na sprzęcie klasy konsumenckiej – HADOOP
  • Potrzebny sprzęt klasy konsumenckiej do utworzenia klastra Hadoop

Wprowadzenie do Map Reduce/HDFS

  • MapReduce – rozproszone przetwarzanie na wielu serwerach
  • HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
  • Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za nadanie sensu danym
  • Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień 2: Sesja 1: Ekosystem Big Data – Budowanie ETL dla Big Data: wszechświat narzędzi Big Data – które wybrać i kiedy?

  • Hadoop vs. inne rozwiązania NoSQL
  • Do interaktywnego, losowego dostępu do danych
  • Hbase (baza danych kolumnowa) na bazie Hadoop
  • Losowy dostęp do danych, ale z narzuconymi ograniczeniami (maks. 1 PB)
  • Nie nadaje się do ad-hoc analiz, dobre do logowania, zliczania, szeregów czasowych
  • Sqoop – Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume – Przesyłanie danych (np. logów) do HDFS

Dzień 2: Sesja 2: System zarządzania Big Data

  • Ruchome części, uruchamianie/awarie węzłów obliczeniowych: ZooKeeper – Do konfiguracji/koordynacji/usług nazewnictwa
  • Złożony pipeline/przepływ pracy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchami
  • Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacje itp. (administracja systemem): Ambari
  • W chmurze: Whirr

Dzień 2: Sesja 3: Analityka predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:

  • Wprowadzenie do uczenia maszynowego
  • Techniki klasyfikacji
  • Predykcja Bayesa – przygotowanie pliku treningowego
  • Maszyna wektorów nośnych
  • Algebra KNN p-Tree i wydobywanie pionowe
  • Sieci neuronowe
  • Problem dużych zmiennych w Big Data – Random forest (RF)
  • Problem automatyzacji w Big Data – Multi-model ensemble RF
  • Automatyzacja przez Soft10-M
  • Narzędzie do analizy tekstu – Treeminer
  • Agile learning
  • Uczenie oparte na agentach
  • Uczenie rozproszone
  • Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Rapidminer, Mahut

Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej-2: Typowe problemy analityki predykcyjnej w rządzie

  • Analityka wglądu
  • Analityka wizualizacji
  • Strukturalna analityka predykcyjna
  • Nieustrukturyzowana analityka predykcyjna
  • Profilowanie zagrożeń/oszustw/dostawców
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
  • Odkrywanie przyczyn źródłowych
  • Analiza sentymentu
  • Analityka CRM
  • Analityka sieciowa
  • Analityka tekstu
  • Przegląd wspomagany technologią
  • Analityka oszustw
  • Analityka w czasie rzeczywistym

Dzień 3: Sesja 1: Analityka w czasie rzeczywistym i skalowalna na bazie Hadoop

  • Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
  • Apache Hama – do masowego synchronicznego przetwarzania rozproszonego
  • Apache SPARK – do przetwarzania klastrowego w czasie rzeczywistym
  • CMU Graphics Lab2 – Graficzne asynchroniczne podejście do przetwarzania rozproszonego
  • Podejście oparte na algebrze KNN p-Tree z Treeminer do obniżenia kosztów sprzętowych operacji

Dzień 3: Sesja 2: Narzędzia do eDiscovery i forensyki

  • eDiscovery na Big Data vs. dane legacy – porównanie kosztów i wydajności
  • Przewidujące kodowanie i przegląd wspomagany technologią (TAR)
  • Demo na żywo produktu TAR (vMiner), aby zrozumieć, jak TAR działa na szybsze odkrycie
  • Szybsze indeksowanie przez HDFS – szybkość danych
  • NLP lub przetwarzanie języka naturalnego – różne techniki i produkty open source
  • eDiscovery w językach obcych – technologia przetwarzania języków obcych

Dzień 3: Sesja 3: Big Data BI dla cyberbezpieczeństwa – Zrozumienie pełnego 360-stopniowego widoku szybkiego gromadzenia danych do identyfikacji zagrożeń

  • Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
  • Infrastruktura sieciowa/ Duże rury danych/ ETL odpowiedzi do analizy w czasie rzeczywistym
  • Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych

Dzień 3: Sesja 4: Big Data w USDA: Zastosowania w rolnictwie

  • Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa – Big Data oparte na czujnikach i kontrola
  • Wprowadzenie do obrazowania satelitarnego i jego zastosowań w rolnictwie
  • Integracja danych z czujników i obrazów dla żyzności gleby, rekomendacji upraw i prognozowania
  • Ubezpieczenia rolnicze i Big Data
  • Prognozowanie strat w uprawach

Dzień 4: Sesja 1: Zapobieganie oszustwom w BI z Big Data w rządzie – Analityka oszustw:

  • Podstawowa klasyfikacja analityki oszustw – oparte na regułach vs predykcyjna
  • Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwa dostawców/przecenianie projektów
  • Oszustwa Medicare i Medicaid – techniki wykrywania oszustw w procesie rozliczeń
  • Oszustwa związane z refundacją podróży
  • Oszustwa zwrotów IRS
  • Studia przypadków i demo na żywo będą prezentowane tam, gdzie dostępne są dane.

Dzień 4: Sesja 2: Analityka mediów społecznościowych – Gromadzenie i analiza informacji

  • API ETL Big Data do ekstrakcji danych z mediów społecznościowych
  • Tekst, obrazy, metadane i wideo
  • Analiza sentymentu z kanałów mediów społecznościowych
  • Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
  • Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
  • Automatyczne profilowanie profili mediów społecznościowych
  • Demo na żywo każdej analityki będzie prezentowane za pomocą narzędzia Treeminer.

Dzień 4: Sesja 3: Analityka Big Data w przetwarzaniu obrazów i strumieni wideo

  • Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
  • LTFS i LTO
  • GPFS-LTFS (Warstwowe rozwiązanie do przechowywania dużych danych obrazowych)
  • Podstawy analityki obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazów
  • Śledzenie ruchu
  • Rekonstrukcja obrazów 3D

Dzień 4: Sesja 4: Zastosowania Big Data w NIH:

  • Nowe obszary bioinformatyki
  • Metagenomika i problemy z wydobywaniem Big Data
  • Analityka predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
  • Big Data w procesach genomiki w dół rzeki
  • Zastosowanie predykcyjnej analityki Big Data w zdrowiu publicznym

Dashboard Big Data dla szybkiego dostępu do różnych danych i wyświetlania:

  • Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
  • Zarządzanie Big Data
  • Studium przypadku dashboardu Big Data: Tableau i Pentaho
  • Użyj aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
  • System śledzenia i zarządzania

Dzień 5: Sesja 1: Jak uzasadnić wdrożenie Big Data BI w organizacji:

  • Definiowanie ROI dla wdrożenia Big Data
  • Studia przypadków oszczędzania czasu analityków na zbieranie i przygotowanie danych – wzrost produktywności
  • Studia przypadków zysków z oszczędności kosztów licencjonowanych baz danych
  • Zyski z usług opartych na lokalizacji
  • Oszczędności z zapobiegania oszustwom
  • Zintegrowane podejście do arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. zysków/oszczędności z wdrożenia Big Data.

Dzień 5: Sesja 2: Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data:

  • Zrozumienie praktycznej mapy drogowej migracji Big Data
  • Jakie są ważne informacje potrzebne przed architekturą wdrożenia Big Data
  • Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
  • Jak oszacować wzrost danych
  • Studia przypadków

Dzień 5: Sesja 4: Przegląd dostawców Big Data i przegląd ich produktów. Sesja Q/A:

  • Accenture
  • APTEAN (dawniej CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Wymagania

  • Podstawowa wiedza na temat operacji biznesowych i systemów danych w rządzie w ich dziedzinie
  • Podstawowe zrozumienie SQL/Oracle lub relacyjnych baz danych
  • Podstawowe zrozumienie statystyki (na poziomie arkusza kalkulacyjnego)
 35 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie