Plan Szkolenia
Dzień 01
Przegląd Big Data Business Intelligence dla Analizy Wywiadu Kryminalnego
- Studia przypadków z dziedziny ścigania – Policja predykcyjna
- Wskaźnik adopcji Big Data w agencjach ścigania i jak dostosowują one swoje przyszłe działania do predykcyjnej analityki Big Data
- Nowoczesne rozwiązania technologiczne, takie jak czujniki strzałów, monitoring wideo i media społecznościowe
- Wykorzystanie technologii Big Data do łagodzenia przeciążenia informacjami
- Integracja Big Data z danymi legacy
- Podstawowe zrozumienie technologii wspierających analitykę predykcyjną
- Integracja danych i wizualizacja na dashboardach
- Zarządzanie oszustwami
- Reguły biznesowe i wykrywanie oszustw
- Wykrywanie zagrożeń i profilowanie
- Analiza kosztów i korzyści wdrożenia Big Data
Wprowadzenie do Big Data
- Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność.
- Architektura MPP (Massively Parallel Processing)
- Hurtownie danych – statyczny schemat, powoli ewoluujący zbiór danych
- Bazy danych MPP: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop – brak wymagań co do struktury zbioru danych.
- Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Apache Spark do przetwarzania strumieniowego
- Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
- Objętość: dane strumieniowe CEP
- Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji – Storm/S4
- Bazy danych NoSQL – (kolumnowe i klucz-wartość): Najlepiej nadające się jako analityczne uzupełnienie hurtowni danych/bazy danych
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchiczny) - GT.m, Cache
- KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektowych - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data
- RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
- NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
- Problemy z czyszczeniem danych
Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURALNE – Hurtownie danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (kosztownie), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
- Dane CZĘŚCIOWO STRUKTURALNE – trudne do przetworzenia przy użyciu tradycyjnych rozwiązań (hurtownie danych/bazy danych)
- Przechowywanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
- Dla różnorodności i objętości danych, przetwarzane na sprzęcie masowym – HADOOP
- Potrzebny sprzęt masowy do utworzenia klastra Hadoop
Wprowadzenie do MapReduce /HDFS
- MapReduce – rozproszone przetwarzanie na wielu serwerach
- HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
- Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
- Obowiązkiem programisty jest nadanie sensu danym
- Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień 02
Ekosystem Big Data – Budowanie ETL (Extract, Transform, Load) dla Big Data – Które narzędzia Big Data wybrać i kiedy?
- Hadoop vs. Inne rozwiązania NoSQL
- Do interaktywnego, losowego dostępu do danych
- Hbase (baza danych kolumnowa) na szczycie Hadoop
- Losowy dostęp do danych, ale z ograniczeniami (max 1 PB)
- Nie dobre do ad-hoc analiz, dobre do logowania, liczenia, szeregów czasowych
- Sqoop - Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume – Przesyłanie danych strumieniowych (np. logów) do HDFS
System zarządzania Big Data
- Ruchome części, węzły obliczeniowe uruchamiają się/awarie :ZooKeeper - Do konfiguracji/koordynacji/usług nazewnictwa
- Złożony pipeline/workflow: Oozie – zarządzanie workflow, zależnościami, łańcuch daisy
- Wdrażanie, konfiguracja, zarządzanie klastrem, aktualizacje itp. (administracja systemem) :Ambari
- W chmurze : Whirr
Analityka predykcyjna – Podstawowe techniki i analityka biznesowa oparta na uczeniu maszynowym
- Wprowadzenie do uczenia maszynowego
- Techniki klasyfikacji
- Predykcja bayesowska – przygotowanie pliku treningowego
- Maszyna wektorów nośnych
- KNN p-Tree Algebra & pionowe wydobywanie
- Sieci neuronowe
- Problem dużych zmiennych w Big Data – Random forest (RF)
- Problem automatyzacji Big Data – Multi-model ensemble RF
- Automatyzacja poprzez Soft10-M
- Narzędzie do analizy tekstu – Treeminer
- Elastyczne uczenie
- Uczenie oparte na agentach
- Rozproszone uczenie
- Wprowadzenie do narzędzi open source do analityki predykcyjnej : R, Python, Rapidminer, Mahut
Ekosystem analityki predykcyjnej i jej zastosowanie w analizie wywiadu kryminalnego
- Technologia i proces śledczy
- Analityka wglądu
- Analityka wizualizacyjna
- Strukturalna analityka predykcyjna
- Niestrukturalna analityka predykcyjna
- Profilowanie zagrożeń/oszustw/dostawców
- Silnik rekomendacyjny
- Wykrywanie wzorców
- Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
- Odkrywanie przyczyn źródłowych
- Analiza sentymentu
- Analityka CRM
- Analityka sieciowa
- Analityka tekstu do uzyskiwania wglądu z transkryptów, zeznań świadków, rozmów internetowych itp.
- Technologia wspomagająca przegląd
- Analityka oszustw
- Analityka w czasie rzeczywistym
Dzień 03
Analityka w czasie rzeczywistym i skalowalna na Hadoop
- Dlaczego powszechne algorytmy analityczne zawodzą w Hadoop/HDFS
- Apache Hama- do synchronicznego przetwarzania zbiorczego
- Apache SPARK- do przetwarzania klastrowego i analityki w czasie rzeczywistym
- CMU Graphics Lab2- Grafowe asynchroniczne podejście do przetwarzania rozproszonego
- KNN p – Algebraiczne podejście z Treeminer do obniżenia kosztów sprzętowych operacji
Narzędzia do eDiscovery i Forensyki
- eDiscovery na Big Data vs. Dane legacy – porównanie kosztów i wydajności
- Predykcyjne kodowanie i Technology Assisted Review (TAR)
- Demonstracja na żywo vMiner, aby zrozumieć, jak TAR umożliwia szybsze odkrywanie
- Szybsze indeksowanie poprzez HDFS – Szybkość danych
- NLP (Przetwarzanie języka naturalnego) – produkty i techniki open source
- eDiscovery w językach obcych – technologia do przetwarzania języków obcych
Big Data BI dla cyberbezpieczeństwa – Uzyskanie widoku 360-stopni, szybkie gromadzenie danych i identyfikacja zagrożeń
- Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
- Infrastruktura sieciowa / Duży przepływ danych / ETL odpowiedzi dla analityki w czasie rzeczywistym
- Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych
Gromadzenie różnorodnych danych do analizy wywiadu kryminalnego
- Wykorzystanie IoT (Internet of Things) jako czujników do przechwytywania danych
- Wykorzystanie obrazów satelitarnych do nadzoru krajowego
- Wykorzystanie danych z monitoringu i obrazów do identyfikacji przestępców
- Inne technologie gromadzenia danych – drony, kamery na ciele, systemy tagowania GPS i technologia termowizyjna
- Łączenie automatycznego pobierania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
- Prognozowanie działalności przestępczej
Dzień 04
Zapobieganie oszustwom BI z Big Data w analityce oszustw
- Podstawowa klasyfikacja analityki oszustw – reguły vs analityka predykcyjna
- Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwa B2B, oszustwa w roszczeniach medycznych, oszustwa ubezpieczeniowe, uchylanie się od podatków i pranie pieniędzy
Analityka mediów społecznościowych – Gromadzenie i analiza wywiadu
- Jak przestępcy wykorzystują media społecznościowe do organizowania, rekrutacji i planowania
- API ETL Big Data do ekstrakcji danych z mediów społecznościowych
- Tekst, obraz, metadane i wideo
- Analiza sentymentu z feedów mediów społecznościowych
- Filtrowanie kontekstowe i niekontekstowe feedów mediów społecznościowych
- Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
- Automatyczne profilowanie profili mediów społecznościowych
- Demonstracja na żywo każdej analityki za pomocą narzędzia Treeminer
Analityka Big Data w przetwarzaniu obrazów i strumieni wideo
- Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
- LTFS (Linear Tape File System) i LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) – warstwowe rozwiązanie do przechowywania dużych danych obrazowych
- Podstawy analityki obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazów
- Śledzenie ruchu
- Rekonstrukcja obrazów 3D
Biometria, DNA i programy identyfikacji nowej generacji
- Poza odciskami palców i rozpoznawaniem twarzy
- Rozpoznawanie mowy, analiza wzorców pisania na klawiaturze i CODIS (Combined DNA Index System)
- Poza dopasowaniem DNA: wykorzystanie fenotypowania DNA do rekonstrukcji twarzy z próbek DNA
Dashboard Big Data do szybkiego dostępu do różnorodnych danych i wyświetlania :
- Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
- Zarządzanie Big Data
- Studium przypadku dashboardu Big Data: Tableau i Pentaho
- Wykorzystanie aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
- System śledzenia i zarządzania
Dzień 05
Jak uzasadnić wdrożenie Big Data BI w organizacji:
- Definiowanie ROI (Return on Investment) dla wdrożenia Big Data
- Studia przypadków dotyczące oszczędności czasu analityków w gromadzeniu i przygotowaniu danych – zwiększenie produktywności
- Zysk z niższych kosztów licencji baz danych
- Zysk z usług opartych na lokalizacji
- Oszczędności z zapobiegania oszustwom
- Zintegrowane podejście arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. Zysk/oszczędności z wdrożenia Big Data.
Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data
- Mapa drogowa migracji Big Data
- Jakie kluczowe informacje są potrzebne przed zaprojektowaniem systemu Big Data?
- Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
- Jak oszacować wzrost danych
- Studia przypadków
Przegląd dostawców Big Data i ich produktów.
- Accenture
- APTEAN (Dawniej CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Dawniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Część EMC)
Sesja pytań i odpowiedzi
Wymagania
- Znajomość procesów ścigania i systemów danych
- Podstawowa znajomość SQL/Oracle lub relacyjnych baz danych
- Podstawowa znajomość statystyki (na poziomie arkusza kalkulacyjnego)
Grupa docelowa
- Specjaliści z dziedziny ścigania z technicznym zapleczem
Opinie uczestników (3)
podstawy i kochał przygotowane dokumenty oraz ćwiczenia
Rekha Nallam - GE Medical Systems Polska Sp. z o.o.
Szkolenie - Introduction to Predictive AI
Przetłumaczone przez sztuczną inteligencję
Deepthi była bardzo wyczulona na moje potrzeby, potrafiła zauważyć kiedy dodawać kolejne warstwy złożoności, a kiedy cofnąć się i podjąć bardziej strukturalny sposób działania. Deepthi naprawdę pracowała w moim tempie i zapewniła, że sam jestem w stanie wykorzystać nowe funkcje/narzędzia, pokazując mi najpierw, a następnie pozwalając na ich odtworzenie przez mnie, co bardzo pomogło zatrwalić trening. Nie mogłem być bardziej zadowolony z wyników tego szkolenia i poziomu ekspertyzy Deepthi!
Deepthi - Invest Northern Ireland
Szkolenie - IBM Cognos Analytics
Przetłumaczone przez sztuczną inteligencję
kontakt trenera z uczestnikami, chęć odpowiedzi na pytania wykraczające poza program, miła atmosfera