Dziękujemy za wysłanie zapytania! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Dziękujemy za wysłanie rezerwacji! Jeden z członków naszego zespołu skontaktuje się z Państwem wkrótce.
Plan Szkolenia
Każda sesja trwa 2 godziny
Dzień-1: Sesja-1: Przegląd biznesowy, dlaczego Big Data Business Intelligence w rządzie
- Studia przypadków z NIH, DoE
- Szybko rosnąca adaptacja Big Data w agencjach rządowych i jak dostosowują one swoją przyszłą działalność do analizy predykcyjnej Big Data
- Szersza skala zastosowań w DoD, NSA, IRS, USDA itp.
- Integracja Big Data z dziedzictwem danych
- Podstawowe zrozumienie technologii w analizie predykcyjnej
- Integracja danych i wizualizacja pulpitu nawigacyjnego
- Zarządzanie oszustwami
- Generowanie reguł biznesowych/detekcji oszustw
- Detekcja i profilowanie zagrożeń
- Analiza kosztów i zysków z implementacji Big Data
Dzień-1: Sesja-2: Wprowadzenie do Big Data-1
- Główna charakterystyka Big Data — objętość, zróżnicowanie, szybkość i wiarygodność. Architektura MPP dla objętości.
- Magazyny danych — statyczna schematyzacja, wolno ewoluujące zestawy danych
- Bazy danych MPP takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop — bez warunków struktury zestawu danych.
- Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Przetwarzanie wsadowe — nadaje się do analizy/niinteraktywnych zadań
- Objętość: strumieniowe przetwarzanie danych CEP
- Typowe wybory — produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji — Storm/S4
- Bazy danych NoSQL (kolumnowe i klucz-wartość): najlepsze do zastosowania jako analityczne uzupełnienie magazynu/serwera danych
Dzień-1: Sesja-3: Wprowadzenie do Big Data-2
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchiczny) - GT.m, Cache
- KV Store (uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektowej - ZopeDB, DB40, Shoal
- Baza danych dokumentów - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Szeroka baza kolumnowa - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Rodzaje danych: Wprowadzenie do problemu czyszczenia danych w Big Data
- RDBMS — statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
- NoSQL — półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
- Problemy czyszczenia danych
Dzień-1: Sesja-4: Wprowadzenie do Big Data-3: Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURYZOWANE — przedsiębiorstwa mogą przechowywać ogromne ilości danych (z kosztami), ale narzucają strukturę (nie jest to dobre dla aktywnej eksploracji)
- POŁSTRUKTURYZOWANE dane — trudno to zrobić za pomocą tradycyjnych rozwiązań (magazynu danych/serwera danych)
- Tworzenie magazynów danych = ogromne wysiłki i statyczne nawet po implementacji
- Dla zróżnicowanych i dużych objętości danych, przetwarzanych na tani hardware — HADOOP
- Tani hardware potrzebny do utworzenia klastra Hadoop
Wprowadzenie do MapReduce/HDFS
- MapReduce — rozproszone przetwarzanie na wielu serwerach
- HDFS — sprawia, że dane są dostępne lokalnie dla procesu przetwarzania (z redundantnością)
- Dane — mogą być niestrukturyzowane/bezschematyczne (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za zrozumienie danych
- Programowanie MapReduce = pracy z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień-2: Sesja-1: Ecosystem Big Data — Budowanie ETL Big Data: uniwersum narzędzi Big Data — które wybrać i kiedy?
- Hadoop vs. inne rozwiązania NoSQL
- Dla interaktywnego, losowego dostępu do danych
- Hbase (bazę danych kolumnowej) na podstawie Hadoop
- Losowy dostęp do danych, ale z narzuceniem ograniczeń (max 1 PB)
- Nie nadaje się do ad hoc analizy, dobrze do rejestrowania, liczenia, szeregów czasowych
- Sqoop — Import danych z baz do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume — Strumieniowe przetwarzanie danych (np. danych dziennikowych) do HDFS
Dzień-2: Sesja-2: System zarządzania Big Data
- Ruchowe elementy, węzły obliczeniowe startują/awarii: ZooKeeper — do konfiguracji/koordynacji/usług nazewnictwa
- Złożone potoki/przepływy pracy: Oozie — zarządzanie przepływami, zależnościami, łańcuchem zadań
- Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacja itp. (admin system) : Ambari
- W chmurze: Whirr
Dzień-2: Sesja-3: Analiza predykcyjna w Business Intelligence -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:
- Wprowadzenie do uczenia maszynowego
- Techniki klasyfikacji
- Bayesian Prediction — przygotowanie pliku treningowego
- Maszyna wektorów nośnych (SVM)
- KNN p-Tree Algebra i wydobywanie wertykalne
- Sieci neuronowe
- Problem dużych zmiennych Big Data — Random Forest (RF)
- Problem automatyzacji Big Data — Multi-model ensemble RF
- Automatyzacja poprzez Soft10-M
- Narzędzie do analizy tekstu — Treeminer
- Eksploracyjne uczenie
- Uczenie oparte na agentach
- Rozproszone uczenie
- Wprowadzenie do open source narzędzi dla analizy predykcyjnej: R, Rapidminer, Mahut
Dzień-2: Sesja-4 Ecosystem analizy predykcyjnej -2: Powszechne problemy analizy predykcyjnej w rządzie
- Analiza inspekcji
- Analiza wizualizacyjna
- Strukturyzowana analiza predykcyjna
- Niestrukturyzowana analiza predykcyjna
- Profilowanie zagrożeń/oszustw/dostawców
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrywanie reguł/scenariuszy — awaria, oszustwo, optymalizacja
- Odkrywanie przyczyn podstawowych
- Analiza sentymentu
- Analiza CRM
- Analiza sieciowa
- Analiza tekstu
- Przegląd asystowany technologią
- Analiza oszustw
- Analiza w czasie rzeczywistym
Dzień-3: Sesja-1: W czasie rzeczywistym i skalowalna analiza na Hadoop
- Dlaczego typowe algorytmy analizy danych nie działają w Hadoop/HDFS
- Apache Hama — dla rozproszonego przetwarzania synchronicznego
- Apache SPARK — dla klastrowego przetwarzania w czasie rzeczywistym
- CMU Graphics Lab2 — asynchroniczne podejście do rozproszonego przetwarzania oparte na grafach
- Podejście KNN p-Algebra z Treeminer dla zmniejszenia kosztów sprzętowych operacji
Dzień-3: Sesja-2: Narzędzia do eDiscovery i forenzyki
- eDiscovery na Big Data vs. dziedzictwowych danych — porównanie kosztów i wydajności
- Predykcyjne kodowanie i technologicznie wspierany przegląd (TAR)
- Live demo produktu TAR (vMiner) do zrozumienia, jak działa TAR dla szybszego odkrywania
- Szybsze indeksowanie poprzez HDFS — prędkość danych
- NLP lub Natural Language Processing — różne techniki i produkty open source
- eDiscovery w języku obcym — technologie do przetwarzania języków obcych
Dzień-3: Sesja-3: Big Data BI dla cyberbezpieczeństwa — zrozumienie 360-stopniowego widoku szybkiego zbierania danych do identyfikacji zagrożeń
- Podstawy analizy bezpieczeństwa — powierzchnia ataku, nieprawidłowa konfiguracja bezpieczeństwa, obrona hosta
- Infrastruktura sieciowa/duże kanały danych/odpowiedź ETL dla analizy w czasie rzeczywistym
- Preskryptywna vs predykcyjna — zasady oparte na ustalonych regułach vs automatyczne odkrywanie zasad zagrożeń z metadanych
Dzień-3: Sesja-4: Big Data w USDA: Zastosowania w rolnictwie
- Wprowadzenie do IoT (Internet of Things) dla rolnictwa — sensor-based Big Data i kontrola
- Wprowadzenie do satelitarnego obrazowania i jego zastosowań w rolnictwie
- Integracja danych z czujników i obrazów dla płodności gleby, rekomendacji uprawy i prognozowania
- Ubezpieczenie rolnicze i Big Data
- Prognozowanie strat upraw
Dzień-4: Sesja-1: BI zapobiegające oszustwom z Big Data w rządzie — analiza oszustw:
- Podstawowa klasyfikacja analizy oszustw — oparte na regułach vs predykcyjna
- Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwa dostawców/nadpłaty za projekty
- Oszustwa w programach Medicare i Medicaid — techniki wykrywania oszustw przy przetwarzaniu oświadczeń
- Oszustwa dotyczące zwrotów kosztów podróży
- Oszustwa z zwrotami podatku dochodowego przez IRS
- Studia przypadków i prezentacje na żywo będą udzielane tam, gdzie dostępne są dane.
Dzień-4: Sesja-2: Analiza mediów społecznościowych — zbieranie i analizowanie inteligencji
- API ETL Big Data do wyodrębniania danych z mediów społecznościowych
- Tekst, obraz, metadane i wideo
- Analiza sentymentu z kanałów mediów społecznościowych
- Kontekstowe i niekontekstowe filtrowanie kanałów mediów społecznościowych
- Pulpit nawigacyjny mediów społecznościowych do integracji różnorodnych mediów społecznościowych
- Automatyczne profilowanie kont w mediach społecznościowych
- Prezentacje na żywo każdej analizy będą wykonywane przy użyciu narzędzia Treeminer.
Dzień-4: Sesja-3: Analiza Big Data w przetwarzaniu obrazów i kanałów wideo
- Techniki przechowywania obrazów w Big Data — rozwiązania przechowywania danych przekraczających petabajty
- LTFS i LTO
- GPFS-LTFS (warstwowe rozwiązanie przechowywania dużych obrazów)
- Podstawy analizy obrazu
- Rozpoznawanie obiektów
- Segментация изображения
- Śledzenie ruchu
- Rekonstrukcja 3D obrazów
Dzień-4: Sesja-4: Aplikacje Big Data w NIH:
- Nowe obszary bioinformatyki
- Meta-genomika i problemy wydobywania Big Data
- Analiza predykcyjna Big Data dla farmakogenomiki, metabolomiki i proteomiki
- Big Data w procesie genomiki dółstrumieniowej
- Zastosowanie predykcyjnej analizy Big Data w zdrowiu publicznym
Pulpit nawigacyjny Big Data do szybkiego dostępu do różnorodnych danych i ich wyświetlenia:
- Integracja istniejącej platformy aplikacji z pulpitem nawigacyjnym Big Data
- Zarządzanie Big Data
- Studium przypadku pulpitu nawigacyjnego Big Data: Tableau i Pentaho
- Użycie aplikacji Big Data do wypychania usług opartych na lokalizacji w rządzie
- System śledzenia i zarządzanie
Dzień-5: Sesja-1: Jak uzasadnić implementację Big Data BI w organizacji:
- Definiowanie ROI dla implementacji Big Data
- Studia przypadków oszczędności czasu analityka na zbieranie i przygotowywanie danych — zwiększenie produktywności
- Studia przypadków oszczędności kosztów bazy danych licencjonowanej
- Oszczędności z usługi opartej na lokalizacji
- Oszczędności z zapobiegania oszustwom
- Zintegrowany arkusz kalkulacyjny do przybliżonego obliczenia kosztów i zysków/oszczędności z implementacji Big Data.
Dzień-5: Sesja-2: Krok po kroku procedura wymiany systemu dziedzictwa na system Big Data:
- Zrozumienie praktycznego drogowskazu migracji Big Data
- Jakie są ważne informacje potrzebne przed projektowaniem implementacji Big Data
- Jakie są różne sposoby obliczania objętości, szybkości, zróżnicowania i wiarygodności danych
- Jak oszacować wzrost danych
- Studia przypadków
Dzień-5: Sesja-4: Przegląd dostawców Big Data i ich produktów. Sessja Q&A:
- Accenture
- APTEAN (dawniej CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dawniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
Wymagania
1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)
35 godzin
Opinie uczestników (1)
Zdolność trenera do dostosowania kursu do wymagań organizacji, a nie tylko do zapewnienia jego przeprowadzenia dla samego siebie.
Masilonyane - Revenue Services Lesotho
Szkolenie - Big Data Business Intelligence for Govt. Agencies
Przetłumaczone przez sztuczną inteligencję