Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Każda sesja trwa 2 godziny
Dzień-1: Sesja -1: Biznesowy przegląd, dlaczego Big Data Business Intelligence w organach rządowych
- Studia przypadków z NIH, DoE
- Tempo przyjmowania Big Data przez organy rządowe i jak dopasowują swoją przyszłą działalność do analizy predykcyjnej Big Data
- Szeroki zakres zastosowań w DoD, NSA, IRS, USDA itp.
- Interfacing Big Data z przestarzałymi danymi
- Podstawowe zrozumienie technologii w predykcyjnej analizie danych
- Integracja danych i wizualizacja tablicy rozdzielczości
- Zarządzanie oszustwami
- Generowanie reguł biznesowych/detekcji oszustw
- Wykrywanie i profilowanie zagrożeń
- Analiza kosztów i zysków z implementacji Big Data
Dzień-1: Sesja-2 : Wprowadzenie do Big Data-1
- Główna charakterystyka Big Data — objętość, zróżnicowanie, prędkość i wiarygodność. Architektura MPP dla objętości.
- Magazyny danych — statyczna struktura, wolno ewoluujący zestaw danych
- Bazy danych MPP takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop — bez warunków struktury zestawu danych.
- Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Partia — odpowiednie do analizy/nieinteraktywnych
- Objętość: strumieniowanie danych CEP
- Typowe wybory — produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji — Storm/S4
- Bazy danych NoSQL (kolumnarne i klucz-wartość): najlepsze jako analityczny dodatek do magazynu/bazy danych
Dzień-1 : Sesja -3 : Wprowadzenie do Big Data-2
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchiczny) - GT.m, Cache
- KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektów - ZopeDB, DB40, Shoal
- Magazyn dokumentów - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Rodzaje danych: Wprowadzenie do problemu czyszczenia danych w Big Data
- RDBMS — statyczna struktura/schemat, nie sprzyja zwinnej, eksploracyjnej środowisku.
- NoSQL — półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
- Problemy czyszczenia danych
Dzień-1 : Sesja-4 : Wprowadzenie do Big Data-3: Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURYZOWANE — przedsiębiorstwa mogą przechowywać ogromne ilości danych (z kosztami), ale narzucają strukturę (nie przeszkadza to w aktywnej eksploracji)
- DANE POŁUSTRUKTURYZOWANE — trudno jest to zrobić za pomocą tradycyjnych rozwiązań (DW/DB)
- Magazynowanie danych = ogromne wysiłki i statyczność nawet po implementacji
- Dla zróżnicowanych i objętych danymi, przetwarzanych na niewielkich sprzętach — HADOOP
- Wykorzystanie taniego sprzętu do stworzenia klastra Hadoop
Wprowadzenie do Map Reduce/HDFS
- MapReduce — rozproszone przetwarzanie na wielu serwerach
- HDFS — lokalna dostępność danych dla procesów obliczeniowych (z nadmiarowością)
- Dane — mogą być niestrukturyzowane/bezschematowe (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za zrozumienie danych
- Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień-2: Sesja-1: Eko-system Big Data-Budowanie Big Data ETL: świat narzędzi Big Data — które wybrać i kiedy?
- Hadoop vs. inne rozwiązania NoSQL
- Dla interaktywnego, losowego dostępu do danych
- Hbase (bazodanowy kolumnowy) na platformie Hadoop
- Losowy dostęp do danych, ale z narzuceniem ograniczeń (maks. 1 PB)
- Nie odpowiednie dla ad-hoc analiz, dobre dla logowania, liczenia, szeregów czasowych
- Sqoop - Importowanie z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume — strumieniowanie danych (np. logów) do HDFS
Dzień-2: Sesja-2: System zarządzania Big Data
- Ruchowe części, uruchamianie/zakazywanie węzłów obliczeniowych: ZooKeeper — dla konfiguracji/koordynacji/usług nazewnictwa
- Złożone potoki/przezprocesy: Oozie — zarządzanie przepływem pracy, zależnościami, łańcuszkami
- Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacje itp. (administracja systemów): Ambari
- W chmurze: Whirr
Dzień-2: Sesja-3: Predykcyjna analiza w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:
- Wprowadzenie do uczenia maszynowego
- Techniki klasyfikacji
- Bayesian Prediction — przygotowywanie pliku treningowego
- Support Vector Machine (SVM)
- KNN p-Tree Algebra & mining wertykalny
- Sieci neuronowe
- Problem dużych zmiennych Big Data — Random Forest (RF)
- Problem automatyzacji Big Data — Multi-model ensemble RF
- Automatyzacja poprzez Soft10-M
- Narzędzie analizy tekstu — Treeminer
- Zwinne uczenie
- Uczenie oparte na agentach
- Rozproszone uczenie
- Wprowadzenie do otwartoźródłowych narzędzi predykcyjnej analizy: R, Rapidminer, Mahout
Dzień-2: Sesja-4 Eko-system predykcyjnej analizy-2: Powszechne problemy predykcyjnej analizy w organach rządowych
- Analiza spostrzegawcza
- Analiza wizualna
- Strukturyzowana analiza predykcyjna
- Niestrukturyzowana analiza predykcyjna
- Profilowanie zagrożeń/oszustw/dostawców
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrycie reguł/scenariuszy — awaria, oszustwo, optymalizacja
- Analiza przyczyn głębokich
- Analiza sentymentu
- Analiza CRM (Customer Relationship Management)
- Analiza sieciowa
- Analiza tekstu
- Technologia wspomagana rewizja
- Analiza oszustw
- Analiza w czasie rzeczywistym
Dzień-3 : Sesja-1: Analiza w czasie rzeczywistym i skalowalna na Hadoop
- Dlaczego zwykłe algorytmy analizy danych nie działają w Hadoop/HDFS
- Apache Hama — dla rozproszonego przetwarzania synchronicznego
- Apache SPARK — dla przetwarzania klastrowego w czasie rzeczywistym
- CMU Graphics Lab2 — asynchroniczne podejście do rozproszonego przetwarzania oparte na grafach
- Podejście KNN p-Algebra z Treeminer do zmniejszenia kosztów sprzętowych operacji
Dzień-3: Sesja-2: Narzędzia dla eDiscovery i forenziki
- eDiscovery na Big Data vs. dane przestarzałe — porównanie kosztów i wydajności
- Predykcyjne kodowanie i technologia wspomagana rewizja (TAR)
- Na żywo prezentacja produktu TAR (vMiner) w celu zrozumienia, jak działa TAR dla szybszej rewizji
- Szybsze indeksowanie poprzez HDFS — prędkość danych
- NLP (Przetwarzanie języka naturalnego) — różne techniki i otwartoźródłowe produkty
- eDiscovery w obcych językach — technologie przetwarzania języków obcych
Dzień-3 : Sesja 3: Big Data BI dla zabezpieczeń cyfrowych — Zrozumienie pełnego widoku 360 stopni od szybkiego zbierania danych do identyfikacji zagrożeń
- Zrozumienie podstaw analizy zabezpieczeń — powierzchnia ataku, błędy konfiguracji zabezpieczeń, obrona hosta
- Infrastruktura sieciowa/duże potoki danych/ETL odpowiedzi dla analizy w czasie rzeczywistym
- Preskryptywna vs predykcyjna — stałe reguły oparte na metadanych vs automatyczne odkrywanie zasad zagrożeń
Dzień-3: Sesja 4: Big Data w USDA : Zastosowanie w rolnictwie
- Wprowadzenie do IoT (Internet of Things) dla rolnictwa — sensorowe Big Data i kontrola
- Wprowadzenie do obrazów satelitarnych i ich zastosowania w rolnictwie
- Integracja danych z czujników i obrazów dla płodności gleby, rekomendacji uprawy i prognozowania
- Ubezpieczenia rolnicze i Big Data
- Prognozowanie strat upraw
Dzień-4 : Sesja-1: BI zapobiegające oszustwom z Big Data w organach rządowych — analiza oszustw:
- Podstawowa klasyfikacja analizy oszustw — regułowa vs predykcyjna
- Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwa dostawców/nadpłaty za projekty
- Oszustwa Medicare i Medicaid — techniki wykrywania oszustw przy przetwarzaniu roszczeń
- Oszustwa z odszkodowaniami za podróże
- Oszustwa zwrotów podatkowych IRS
- Studia przypadków i na żywo prezentacje będą przedstawione tam, gdzie dane są dostępne.
Dzień-4 : Sesja-2: Analiza mediów społecznościowych — zebranie i analiza wywiadu
- Big Data ETL API do pozyskiwania danych z mediów społecznościowych
- Tekst, obrazy, metadane i filmy wideo
- Analiza sentymentu z wykazów mediów społecznościowych
- Filtracja kontekstowa i niekontekstualna wykazów mediów społecznościowych
- Tablica rozdzielczości mediów społecznościowych do integracji z różnorodnymi mediami społecznościowymi
- Automatyczne profilowanie kont mediów społecznościowych
- Na żywo prezentacja każdej analizy zostanie pokazana za pomocą narzędzia Treeminer.
Dzień-4 : Sesja-3: Analiza Big Data w przetwarzaniu obrazów i strumieniach wideo
- Techniki przechowywania obrazów w Big Data — rozwiązania przechowywania danych przekraczających petabajty
- LTFS i LTO
- GPFS-LTFS (warstwowe rozwiązanie przechowywania dla dużych danych obrazowych)
- Podstawy analizy obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazów
- Śledzenie ruchu
- 3-D rekonstrukcja obrazów
Dzień-4: Sesja-4: Zastosowania Big Data w NIH:
- Rozwijające się obszary bioinformatyki
- Meta-genomika i problemy wydobywania danych Big Data
- Predykcyjna analiza Big Data dla farmakogenetyki, metabolomiki i proteomiki
- Big Data w procesie genomiki strumieniowej
- Zastosowanie predykcyjnej analizy Big Data w ochronie zdrowia publicznego
Tablica rozdzielczości Big Data dla szybkiego dostępu do różnorodnych danych i ich wyświetlania:
- Integracja istniejącej platformy aplikacji z tablicą rozdzielczości Big Data
- Zarządzanie Big Data
- Studium przypadku tablicy rozdzielczości Big Data: Tableau i Pentaho
- Wykorzystanie aplikacji Big Data do przesyłania usług lokalizacyjnych w organach rządowych
- System śledzenia i zarządzania
Dzień-5 : Sesja-1: Jak uzasadnić implementację Big Data BI w organizacji:
- Definiowanie ROI (Zwrotu na Inwestycję) dla implementacji Big Data
- Studia przypadków oszczędności czasu analityka przy zbieraniu i przygotowywaniu danych — wzrost produktywności
- Studia przypadków zysku z oszczędności na kosztach licencjonowanych baz danych
- Zysk z usług lokalizacyjnych
- Oszczędności dzięki zapobieganiu oszustwom
- Zintegrowane podejście arkusza kalkulacyjnego do obliczenia przybliżonych kosztów vs. zysków/oszczędności z implementacji Big Data.
Dzień-5 : Sesja-2: Krok po kroku procedura zamiany przestarzałego systemu danych na system Big Data:
- Zrozumienie praktycznej mapy trasy migracji Big Data
- Jakie informacje są ważne przed architekturą implementacji Big Data
- Różne sposoby obliczania objętości, prędkości, zróżnicowania i wiarygodności danych
- Jak oszacować wzrost danych
- Studia przypadków
Dzień-5: Sesja 4: Przegląd dostawców Big Data i ich produktów. Sesja Q&A:
- Accenture
- APTEAN (wcześniej CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (wcześniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
Wymagania
1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)
35 godzin
Opinie uczestników (1)
Zdolność trenera do dostosowania kursu do wymagań organizacji, a nie tylko do zapewnienia kursu dla samego jego przeprowadzenia.
Masilonyane - Revenue Services Lesotho
Szkolenie - Big Data Business Intelligence for Govt. Agencies
Przetłumaczone przez sztuczną inteligencję