Plan Szkolenia

Każda sesja trwa 2 godziny

Dzień-1: Sesja-1: Przegląd biznesowy, dlaczego Big Data Business Intelligence w rządzie

  • Studia przypadków z NIH, DoE
  • Szybko rosnąca adaptacja Big Data w agencjach rządowych i jak dostosowują one swoją przyszłą działalność do analizy predykcyjnej Big Data
  • Szersza skala zastosowań w DoD, NSA, IRS, USDA itp.
  • Integracja Big Data z dziedzictwem danych
  • Podstawowe zrozumienie technologii w analizie predykcyjnej
  • Integracja danych i wizualizacja pulpitu nawigacyjnego
  • Zarządzanie oszustwami
  • Generowanie reguł biznesowych/detekcji oszustw
  • Detekcja i profilowanie zagrożeń
  • Analiza kosztów i zysków z implementacji Big Data

Dzień-1: Sesja-2: Wprowadzenie do Big Data-1

  • Główna charakterystyka Big Data — objętość, zróżnicowanie, szybkość i wiarygodność. Architektura MPP dla objętości.
  • Magazyny danych — statyczna schematyzacja, wolno ewoluujące zestawy danych
  • Bazy danych MPP takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop — bez warunków struktury zestawu danych.
  • Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Przetwarzanie wsadowe — nadaje się do analizy/niinteraktywnych zadań
  • Objętość: strumieniowe przetwarzanie danych CEP
  • Typowe wybory — produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji — Storm/S4
  • Bazy danych NoSQL (kolumnowe i klucz-wartość): najlepsze do zastosowania jako analityczne uzupełnienie magazynu/serwera danych

Dzień-1: Sesja-3: Wprowadzenie do Big Data-2

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarchiczny) - GT.m, Cache
  • KV Store (uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektowej - ZopeDB, DB40, Shoal
  • Baza danych dokumentów - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Szeroka baza kolumnowa - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Rodzaje danych: Wprowadzenie do problemu czyszczenia danych w Big Data

  • RDBMS — statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
  • NoSQL — półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
  • Problemy czyszczenia danych

Dzień-1: Sesja-4: Wprowadzenie do Big Data-3: Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURYZOWANE — przedsiębiorstwa mogą przechowywać ogromne ilości danych (z kosztami), ale narzucają strukturę (nie jest to dobre dla aktywnej eksploracji)
  • POŁSTRUKTURYZOWANE dane — trudno to zrobić za pomocą tradycyjnych rozwiązań (magazynu danych/serwera danych)
  • Tworzenie magazynów danych = ogromne wysiłki i statyczne nawet po implementacji
  • Dla zróżnicowanych i dużych objętości danych, przetwarzanych na tani hardware — HADOOP
  • Tani hardware potrzebny do utworzenia klastra Hadoop

Wprowadzenie do MapReduce/HDFS

  • MapReduce — rozproszone przetwarzanie na wielu serwerach
  • HDFS — sprawia, że dane są dostępne lokalnie dla procesu przetwarzania (z redundantnością)
  • Dane — mogą być niestrukturyzowane/bezschematyczne (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za zrozumienie danych
  • Programowanie MapReduce = pracy z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień-2: Sesja-1: Ecosystem Big Data — Budowanie ETL Big Data: uniwersum narzędzi Big Data — które wybrać i kiedy?

  • Hadoop vs. inne rozwiązania NoSQL
  • Dla interaktywnego, losowego dostępu do danych
  • Hbase (bazę danych kolumnowej) na podstawie Hadoop
  • Losowy dostęp do danych, ale z narzuceniem ograniczeń (max 1 PB)
  • Nie nadaje się do ad hoc analizy, dobrze do rejestrowania, liczenia, szeregów czasowych
  • Sqoop — Import danych z baz do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume — Strumieniowe przetwarzanie danych (np. danych dziennikowych) do HDFS

Dzień-2: Sesja-2: System zarządzania Big Data

  • Ruchowe elementy, węzły obliczeniowe startują/awarii: ZooKeeper — do konfiguracji/koordynacji/usług nazewnictwa
  • Złożone potoki/przepływy pracy: Oozie — zarządzanie przepływami, zależnościami, łańcuchem zadań
  • Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacja itp. (admin system) : Ambari
  • W chmurze: Whirr

Dzień-2: Sesja-3: Analiza predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:

  • Wprowadzenie do uczenia maszynowego
  • Techniki klasyfikacji
  • Bayesian Prediction — przygotowanie pliku treningowego
  • Maszyna wektorów nośnych (SVM)
  • KNN p-Tree Algebra i wydobywanie wertykalne
  • Sieci neuronowe
  • Problem dużych zmiennych Big Data — Random Forest (RF)
  • Problem automatyzacji Big Data — Multi-model ensemble RF
  • Automatyzacja poprzez Soft10-M
  • Narzędzie do analizy tekstu — Treeminer
  • Eksploracyjne uczenie
  • Uczenie oparte na agentach
  • Rozproszone uczenie
  • Wprowadzenie do open source narzędzi dla analizy predykcyjnej: R, Rapidminer, Mahut

Dzień-2: Sesja-4 Ecosystem analizy predykcyjnej -2: Powszechne problemy analizy predykcyjnej w rządzie

  • Analiza inspekcji
  • Analiza wizualizacyjna
  • Strukturyzowana analiza predykcyjna
  • Niestrukturyzowana analiza predykcyjna
  • Profilowanie zagrożeń/oszustw/dostawców
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrywanie reguł/scenariuszy — awaria, oszustwo, optymalizacja
  • Odkrywanie przyczyn podstawowych
  • Analiza sentymentu
  • Analiza CRM
  • Analiza sieciowa
  • Analiza tekstu
  • Przegląd asystowany technologią
  • Analiza oszustw
  • Analiza w czasie rzeczywistym

Dzień-3: Sesja-1: W czasie rzeczywistym i skalowalna analiza na Hadoop

  • Dlaczego typowe algorytmy analizy danych nie działają w Hadoop/HDFS
  • Apache Hama — dla rozproszonego przetwarzania synchronicznego
  • Apache SPARK — dla klastrowego przetwarzania w czasie rzeczywistym
  • CMU Graphics Lab2 — asynchroniczne podejście do rozproszonego przetwarzania oparte na grafach
  • Podejście KNN p-Algebra z Treeminer dla zmniejszenia kosztów sprzętowych operacji

Dzień-3: Sesja-2: Narzędzia do eDiscovery i forenzyki

  • eDiscovery na Big Data vs. dziedzictwowych danych — porównanie kosztów i wydajności
  • Predykcyjne kodowanie i technologicznie wspierany przegląd (TAR)
  • Live demo produktu TAR (vMiner) do zrozumienia, jak działa TAR dla szybszego odkrywania
  • Szybsze indeksowanie poprzez HDFS — prędkość danych
  • NLP lub Natural Language Processing — różne techniki i produkty open source
  • eDiscovery w języku obcym — technologie do przetwarzania języków obcych

Dzień-3: Sesja-3: Big Data BI dla cyberbezpieczeństwa — zrozumienie 360-stopniowego widoku szybkiego zbierania danych do identyfikacji zagrożeń

  • Podstawy analizy bezpieczeństwa — powierzchnia ataku, nieprawidłowa konfiguracja bezpieczeństwa, obrona hosta
  • Infrastruktura sieciowa/duże kanały danych/odpowiedź ETL dla analizy w czasie rzeczywistym
  • Preskryptywna vs predykcyjna — zasady oparte na ustalonych regułach vs automatyczne odkrywanie zasad zagrożeń z metadanych

Dzień-3: Sesja-4: Big Data w USDA: Zastosowania w rolnictwie

  • Wprowadzenie do IoT (Internet of Things) dla rolnictwa — sensor-based Big Data i kontrola
  • Wprowadzenie do satelitarnego obrazowania i jego zastosowań w rolnictwie
  • Integracja danych z czujników i obrazów dla płodności gleby, rekomendacji uprawy i prognozowania
  • Ubezpieczenie rolnicze i Big Data
  • Prognozowanie strat upraw

Dzień-4: Sesja-1: BI zapobiegające oszustwom z Big Data w rządzie — analiza oszustw:

  • Podstawowa klasyfikacja analizy oszustw — oparte na regułach vs predykcyjna
  • Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwa dostawców/nadpłaty za projekty
  • Oszustwa w programach Medicare i Medicaid — techniki wykrywania oszustw przy przetwarzaniu oświadczeń
  • Oszustwa dotyczące zwrotów kosztów podróży
  • Oszustwa z zwrotami podatku dochodowego przez IRS
  • Studia przypadków i prezentacje na żywo będą udzielane tam, gdzie dostępne są dane.

Dzień-4: Sesja-2: Analiza mediów społecznościowych — zbieranie i analizowanie inteligencji

  • API ETL Big Data do wyodrębniania danych z mediów społecznościowych
  • Tekst, obraz, metadane i wideo
  • Analiza sentymentu z kanałów mediów społecznościowych
  • Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
  • Pulpit nawigacyjny mediów społecznościowych do integracji różnorodnych mediów społecznościowych
  • Automatyczne profilowanie kont w mediach społecznościowych
  • Prezentacje na żywo każdej analizy będą wykonywane przy użyciu narzędzia Treeminer.

Dzień-4: Sesja-3: Analiza Big Data w przetwarzaniu obrazów i kanałów wideo

  • Techniki przechowywania obrazów w Big Data — rozwiązania przechowywania danych przekraczających petabajty
  • LTFS i LTO
  • GPFS-LTFS (warstwowe rozwiązanie przechowywania dużych obrazów)
  • Podstawy analizy obrazu
  • Rozpoznawanie obiektów
  • Segментация изображения
  • Śledzenie ruchu
  • Rekonstrukcja 3D obrazów

Dzień-4: Sesja-4: Aplikacje Big Data w NIH:

  • Nowe obszary bioinformatyki
  • Meta-genomika i problemy wydobywania Big Data
  • Analiza predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
  • Big Data w procesie genomiki dółstrumieniowej
  • Zastosowanie predykcyjnej analizy Big Data w zdrowiu publicznym

Pulpit nawigacyjny Big Data do szybkiego dostępu do różnorodnych danych i ich wyświetlenia:

  • Integracja istniejącej platformy aplikacji z pulpitem nawigacyjnym Big Data
  • Zarządzanie Big Data
  • Studium przypadku pulpitu nawigacyjnego Big Data: Tableau i Pentaho
  • Użycie aplikacji Big Data do wypychania usług opartych na lokalizacji w rządzie
  • System śledzenia i zarządzanie

Dzień-5: Sesja-1: Jak uzasadnić implementację Big Data BI w organizacji:

  • Definiowanie ROI dla implementacji Big Data
  • Studia przypadków oszczędności czasu analityka na zbieranie i przygotowywanie danych — zwiększenie produktywności
  • Studia przypadków oszczędności kosztów bazy danych licencjonowanej
  • Oszczędności z usługi opartej na lokalizacji
  • Oszczędności z zapobiegania oszustwom
  • Zintegrowany arkusz kalkulacyjny do przybliżonego obliczenia kosztów i zysków/oszczędności z implementacji Big Data.

Dzień-5: Sesja-2: Krok po kroku procedura wymiany systemu dziedzictwa na system Big Data:

  • Zrozumienie praktycznego drogowskazu migracji Big Data
  • Jakie są ważne informacje potrzebne przed projektowaniem implementacji Big Data
  • Jakie są różne sposoby obliczania objętości, szybkości, zróżnicowania i wiarygodności danych
  • Jak oszacować wzrost danych
  • Studia przypadków

Dzień-5: Sesja-4: Przegląd dostawców Big Data i ich produktów. Sessja Q&A:

  • Accenture
  • APTEAN (dawniej CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Wymagania

1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)

 35 godzin

Liczba uczestników


Cena za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie