Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Każda sesja trwa 2 godziny
Dzień 1: Sesja 1: Przegląd biznesowy – dlaczego Big Data Business Intelligence w rządzie
- Studia przypadków z NIH, DoE
- Tempo adaptacji Big Data w agencjach rządowych i jak dostosowują one swoje przyszłe operacje wokół predykcyjnej analityki Big Data
- Szerokie obszary zastosowań w DoD, NSA, IRS, USDA itp.
- Integracja Big Data z danymi legacy
- Podstawowe zrozumienie technologii umożliwiających predykcyjną analitykę
- Integracja danych i wizualizacja na dashboardach
- Zarządzanie oszustwami
- Generowanie reguł biznesowych/wykrywanie oszustw
- Wykrywanie i profilowanie zagrożeń
- Analiza kosztów i korzyści wdrożenia Big Data
Dzień 1: Sesja 2: Wprowadzenie do Big Data-1
- Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność. Architektura MPP dla objętości.
- Magazyny danych – statyczny schemat, wolno ewoluujący zbiór danych
- Bazy danych MPP, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop – brak warunków dotyczących struktury zbioru danych.
- Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
- Objętość: strumieniowe dane CEP
- Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji – Storm/S4
- Bazy danych NoSQL – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie magazynu danych/bazy danych
Dzień 1: Sesja 3: Wprowadzenie do Big Data-2
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchiczny) - GT.m, Cache
- KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektowych - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data
- RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
- NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
- Problemy z czyszczeniem danych
Dzień 1: Sesja 4: Wprowadzenie do Big Data-3: Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURALNE – Magazyny danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (za koszt), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
- Dane CZĘŚCIOWO STRUKTURALNE – trudne do realizacji za pomocą tradycyjnych rozwiązań (DW/DB)
- Magazynowanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
- Dla różnorodności i objętości danych, przetwarzane na sprzęcie klasy konsumenckiej – HADOOP
- Potrzebny sprzęt klasy konsumenckiej do utworzenia klastra Hadoop
Wprowadzenie do Map Reduce/HDFS
- MapReduce – rozproszone przetwarzanie na wielu serwerach
- HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
- Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za nadanie sensu danym
- Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień 2: Sesja 1: Ekosystem Big Data – Budowanie ETL dla Big Data: wszechświat narzędzi Big Data – które wybrać i kiedy?
- Hadoop vs. inne rozwiązania NoSQL
- Do interaktywnego, losowego dostępu do danych
- Hbase (baza danych kolumnowa) na bazie Hadoop
- Losowy dostęp do danych, ale z narzuconymi ograniczeniami (maks. 1 PB)
- Nie nadaje się do ad-hoc analiz, dobre do logowania, zliczania, szeregów czasowych
- Sqoop – Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume – Przesyłanie danych (np. logów) do HDFS
Dzień 2: Sesja 2: System zarządzania Big Data
- Ruchome części, uruchamianie/awarie węzłów obliczeniowych: ZooKeeper – Do konfiguracji/koordynacji/usług nazewnictwa
- Złożony pipeline/przepływ pracy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchami
- Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacje itp. (administracja systemem): Ambari
- W chmurze: Whirr
Dzień 2: Sesja 3: Analityka predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:
- Wprowadzenie do uczenia maszynowego
- Techniki klasyfikacji
- Predykcja Bayesa – przygotowanie pliku treningowego
- Maszyna wektorów nośnych
- Algebra KNN p-Tree i wydobywanie pionowe
- Sieci neuronowe
- Problem dużych zmiennych w Big Data – Random forest (RF)
- Problem automatyzacji w Big Data – Multi-model ensemble RF
- Automatyzacja przez Soft10-M
- Narzędzie do analizy tekstu – Treeminer
- Agile learning
- Uczenie oparte na agentach
- Uczenie rozproszone
- Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Rapidminer, Mahut
Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej-2: Typowe problemy analityki predykcyjnej w rządzie
- Analityka wglądu
- Analityka wizualizacji
- Strukturalna analityka predykcyjna
- Nieustrukturyzowana analityka predykcyjna
- Profilowanie zagrożeń/oszustw/dostawców
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
- Odkrywanie przyczyn źródłowych
- Analiza sentymentu
- Analityka CRM
- Analityka sieciowa
- Analityka tekstu
- Przegląd wspomagany technologią
- Analityka oszustw
- Analityka w czasie rzeczywistym
Dzień 3: Sesja 1: Analityka w czasie rzeczywistym i skalowalna na bazie Hadoop
- Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
- Apache Hama – do masowego synchronicznego przetwarzania rozproszonego
- Apache SPARK – do przetwarzania klastrowego w czasie rzeczywistym
- CMU Graphics Lab2 – Graficzne asynchroniczne podejście do przetwarzania rozproszonego
- Podejście oparte na algebrze KNN p-Tree z Treeminer do obniżenia kosztów sprzętowych operacji
Dzień 3: Sesja 2: Narzędzia do eDiscovery i forensyki
- eDiscovery na Big Data vs. dane legacy – porównanie kosztów i wydajności
- Przewidujące kodowanie i przegląd wspomagany technologią (TAR)
- Demo na żywo produktu TAR (vMiner), aby zrozumieć, jak TAR działa na szybsze odkrycie
- Szybsze indeksowanie przez HDFS – szybkość danych
- NLP lub przetwarzanie języka naturalnego – różne techniki i produkty open source
- eDiscovery w językach obcych – technologia przetwarzania języków obcych
Dzień 3: Sesja 3: Big Data BI dla cyberbezpieczeństwa – Zrozumienie pełnego 360-stopniowego widoku szybkiego gromadzenia danych do identyfikacji zagrożeń
- Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
- Infrastruktura sieciowa/ Duże rury danych/ ETL odpowiedzi do analizy w czasie rzeczywistym
- Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych
Dzień 3: Sesja 4: Big Data w USDA: Zastosowania w rolnictwie
- Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa – Big Data oparte na czujnikach i kontrola
- Wprowadzenie do obrazowania satelitarnego i jego zastosowań w rolnictwie
- Integracja danych z czujników i obrazów dla żyzności gleby, rekomendacji upraw i prognozowania
- Ubezpieczenia rolnicze i Big Data
- Prognozowanie strat w uprawach
Dzień 4: Sesja 1: Zapobieganie oszustwom w BI z Big Data w rządzie – Analityka oszustw:
- Podstawowa klasyfikacja analityki oszustw – oparte na regułach vs predykcyjna
- Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwa dostawców/przecenianie projektów
- Oszustwa Medicare i Medicaid – techniki wykrywania oszustw w procesie rozliczeń
- Oszustwa związane z refundacją podróży
- Oszustwa zwrotów IRS
- Studia przypadków i demo na żywo będą prezentowane tam, gdzie dostępne są dane.
Dzień 4: Sesja 2: Analityka mediów społecznościowych – Gromadzenie i analiza informacji
- API ETL Big Data do ekstrakcji danych z mediów społecznościowych
- Tekst, obrazy, metadane i wideo
- Analiza sentymentu z kanałów mediów społecznościowych
- Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
- Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
- Automatyczne profilowanie profili mediów społecznościowych
- Demo na żywo każdej analityki będzie prezentowane za pomocą narzędzia Treeminer.
Dzień 4: Sesja 3: Analityka Big Data w przetwarzaniu obrazów i strumieni wideo
- Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
- LTFS i LTO
- GPFS-LTFS (Warstwowe rozwiązanie do przechowywania dużych danych obrazowych)
- Podstawy analityki obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazów
- Śledzenie ruchu
- Rekonstrukcja obrazów 3D
Dzień 4: Sesja 4: Zastosowania Big Data w NIH:
- Nowe obszary bioinformatyki
- Metagenomika i problemy z wydobywaniem Big Data
- Analityka predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
- Big Data w procesach genomiki w dół rzeki
- Zastosowanie predykcyjnej analityki Big Data w zdrowiu publicznym
Dashboard Big Data dla szybkiego dostępu do różnych danych i wyświetlania:
- Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
- Zarządzanie Big Data
- Studium przypadku dashboardu Big Data: Tableau i Pentaho
- Użyj aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
- System śledzenia i zarządzania
Dzień 5: Sesja 1: Jak uzasadnić wdrożenie Big Data BI w organizacji:
- Definiowanie ROI dla wdrożenia Big Data
- Studia przypadków oszczędzania czasu analityków na zbieranie i przygotowanie danych – wzrost produktywności
- Studia przypadków zysków z oszczędności kosztów licencjonowanych baz danych
- Zyski z usług opartych na lokalizacji
- Oszczędności z zapobiegania oszustwom
- Zintegrowane podejście do arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. zysków/oszczędności z wdrożenia Big Data.
Dzień 5: Sesja 2: Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data:
- Zrozumienie praktycznej mapy drogowej migracji Big Data
- Jakie są ważne informacje potrzebne przed architekturą wdrożenia Big Data
- Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
- Jak oszacować wzrost danych
- Studia przypadków
Dzień 5: Sesja 4: Przegląd dostawców Big Data i przegląd ich produktów. Sesja Q/A:
- Accenture
- APTEAN (dawniej CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dawniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
Wymagania
- Podstawowa wiedza na temat operacji biznesowych i systemów danych w rządzie w ich dziedzinie
- Podstawowe zrozumienie SQL/Oracle lub relacyjnych baz danych
- Podstawowe zrozumienie statystyki (na poziomie arkusza kalkulacyjnego)
35 godzin
Opinie uczestników (1)
Zdolność trenera do dostosowania kursu do wymagań organizacji, a nie tylko do zapewnienia jego przeprowadzenia dla samego siebie.
Masilonyane - Revenue Services Lesotho
Szkolenie - Big Data Business Intelligence for Govt. Agencies
Przetłumaczone przez sztuczną inteligencję