Plan Szkolenia
Dzień 01
Przegląd Big Data Business Intelligence dla Analizy Inteligencji Kryminalnej
- Przypadki zastosowania z dziedziny policyjnej - przewidywana policja
- Tempo wdrażania technologii Big Data w agencjach policyjnych i sposób, w jaki dostosowują swoje przyszłe działania do analizy predykcyjnej Big Data
- Powstające technologiczne rozwiązania, takie jak czujniki strzelaniny, nadzór wideo i media społecznościowe
- Korzystanie z technologii Big Data w celu ograniczenia przeciążenia informacjami
- Integrowanie Big Data z starszymi danymi
- Podstawowe zrozumienie technologii umożliwiających analizę predykcyjną
- Integracja danych i wizualizacja na pulpicie nawigacyjnym
- Zarządzanie oszustwami
- Reguły biznesowe i wykrywanie oszustw
- Wykrywanie zagrożeń i profilowanie
- Koszty i korzyści z wdrożenia Big Data
Wprowadzenie do Big Data
- Główne cechy Big Data -- Objętość, Zróżnicowanie, Przepustowość i Prawdziwość.
- Architektura MPP (Massively Parallel Processing)
- Data Warehouses – statyczny schemat, powolnie ewoluujący zbiór danych
- Bazy danych MPP: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Rozwiązania oparte na Hadoop – bez warunków struktury zbioru danych.
- Typowy wzorzec : HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
- Apache Spark do przetwarzania strumieniowego
- Przetwarzanie partiami - odpowiednie dla analizy/nieinteraktywnej
- Objętość : CEP dane strumieniowe
- Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji – Storm/S4
- NoSQL Bazy danych – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie do data warehouse/bazy danych
Rozwiązania NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchiczny) - GT.m, Cache
- KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Baza danych obiektów - ZopeDB, DB40, Shoal
- Dokumentowy store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Szeroki magazyn kolumnowy - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Odmienności danych: Wprowadzenie do problemów czyszczenia danych w Big Data
- RDBMS – statyczna struktura/schemat, nie promuje zwinnych, eksploracyjnych środowisk.
- NoSQL – półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
- Problemy czyszczenia danych
Hadoop
- Kiedy wybrać Hadoop?
- STRUKTUROWANE - Przedsiębiorcze data warehouses/bazy danych mogą przechowywać ogromne zbiory danych (z kosztami), ale narzucają strukturę (nie dobre dla aktywnej eksploracji)
- SEMI STRUKTUROWANE dane – trudne do przeprowadzenia przy użyciu tradycyjnych rozwiązań (DW/DB)
- Magażynowanie danych = ogromny wysiłek i statyczne nawet po wdrożeniu
- Dla różnorodności i objętości danych, przetwarzanych na tani hardware – HADOOP
- Tani H/W potrzebny do stworzenia klastra Hadoop
Wprowadzenie do Map Reduce/HDFS
- MapReduce – rozproszone obliczenia na wielu serwerach
- HDFS – dostarczanie danych lokalnie dla procesu obliczeniowego (z nadmiarem)
- Dane – mogą być niestrukturyzowane/bezschematyczne (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za interpretację danych
- Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS
Dzień 02
Ekosystem Big Data -- Budowanie Big Data ETL (Extract, Transform, Load) -- Które narzędzia Big Data użyć i kiedy?
- Hadoop vs. inne rozwiązania NoSQL
- Do interaktywnego, losowego dostępu do danych
- Hbase (baza danych zorientowana na kolumny) nad Hadoopem
- Losowy dostęp do danych ale z ograniczeniami (max 1 PB)
- Nie nadaje się do ad-hoc analiz, dobre dla logowania, liczenia, szeregów czasowych
- Sqoop - Importowanie danych z baz do Hive lub HDFS (JDBC/ODBC access)
- Flume – przesyłanie strumieniowego danych (np. logów) do HDFS
Zarządzanie Systemem Big Data
- Części w ruchu, start/niepowodzenie węzłów obliczeniowych: ZooKeeper - dla konfiguracji/koordynacji/ustawień nazw
- Skomplikowane potoki/przezprocesy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchowymi procesami
- Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacje itp. (sys admin): Ambari
- Na chmurze: Whirr
Analiza predykcyjna -- Podstawowe techniki i Business Intelligence oparte na uczeniu maszynowym
- Wprowadzenie do uczenia maszynowego
- Nauka technik klasyfikacji
- Bayesowskie przewidywanie -- przygotowanie pliku treningowego
- Maszyna wektorów nośnych (SVM)
- KNN p-Tree Algebra i wydobywanie pionowe
- Sieci neuronowe
- Problem dużej liczby zmiennych w Big Data – Las losowy (RF)
- Problematyka automatyzacji w Big Data – Wielomodelowy ensemble RF
- Automatyzacja przez Soft10-M
- Narzędzie do analizy tekstu - Treeminer
- Nauka zwinna
- Nauka oparta na agentach
- Distributed learning
- Wprowadzenie do Open source narzędzi dla analizy predykcyjnej: R, Python, Rapidminer, Mahut
Ekosystem analizy predykcyjnej i jego zastosowanie w analizie inteligencji kryminalnej
- Technologia i proces śledczy
- Analiza wnikliwa
- Analiza wizualna
- Strukturalna analiza predykcyjna
- Niestrukturalna analiza predykcyjna
- Profilowanie zagrożeń/oszustw/odczytaczy
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrywanie scenariuszy/reguł – awaria, oszustwo, optymalizacja
- Odkrywanie przyczyn korzeniowych
- Analiza nastroju
- Analiza CRM
- Analiza sieciowa
- Analiza tekstu do uzyskiwania wglądu z transkryptów, zeznań świadków, plotek internetowych itp.
- Technologia wspomagająca rewizję
- Analiza oszustw
- Analiza w czasie rzeczywistym
Dzień 03
Analiza w czasie rzeczywistym i skalowalna na Hadoop
- Dlaczego powszechnie używane algorytmy analizy zawodzą w Hadoop/HDFS
- Apache Hama - do rozproszonego obliczenia synchronicznego
- Apache SPARK - do obliczeń klastrowych i analizy w czasie rzeczywistym
- CMU Graphics Lab2 - asynchroniczne podejście oparte na grafach do rozproszonego obliczenia
- KNN p - algebraiczne podejście z Treeminer do zmniejszenia kosztów sprzętowych operacji
Narzędzia do eDiscovery i kryminalistiki
- eDiscovery na Big Data vs. starszych danych – porównanie kosztów i wydajności
- Przewidywalne kodowanie i Technologia Wspomagana Rewizja (TAR)
- Demo vMiner, aby zrozumieć, jak TAR umożliwia szybszą rewizję
- Szybsze indeksowanie poprzez HDFS – prędkość danych
- NLP (Przetwarzanie języka naturalnego) – produkty i techniki open source
- eDiscovery w językach obcych – technologia do przetwarzania języków obcych
Big Data BI dla cyberbezpieczeństwa – uzyskiwanie kompleksowego widoku, szybkie zbieranie danych i identyfikacja zagrożeń
- Zrozumienie podstaw analizy bezpieczeństwa – powierzchnia ataku, błędy konfiguracji bezpieczeństwa, obrona hostów
- Infrastruktura sieciowa / duży przepustowy kanal / Response ETL dla analizy w czasie rzeczywistym
- Predykcyjne vs preskryptywne – stałe reguły oparte na metadanych vs automatyczne odkrywanie reguł zagrożeń
Zbieranie rozproszonych danych dla analizy inteligencji kryminalnej
- Korzystanie z IoT (Internet of Things) jako czujników do zbierania danych
- Korzystanie z satelitarnych zdjęć do nadzoru w kraju
- Korzystanie ze zdjęć i danych obrazowych do identyfikacji przestępców
- Inne technologie gromadzenia danych – drony, kamery ciałowe, systemy GPS i technologia termiczna
- Połączenie automatycznego pobierania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
- Prognozowanie działalności kryminalnej
Dzień 04
Biznesowa inteligencja w celu zapobiegania oszustwom z Big Data w analizie oszustw
- Podstawowa klasyfikacja Analizy Oszustw – reguły oparte vs predykcyjne
- Supervised vs unsupervised Machine learning do wykrywania wzorców oszustw
- Oszustwa B2B, fałszywe roszczenia medyczne, oszustwa ubezpieczeniowe, unikanie podatków i pranie pieniędzy
Analiza mediów społecznościowych – gromadzenie i analiza intelektualna
- Jak media społecznościowe są wykorzystywane przez przestępców do organizacji, werbunku i planowania
- API ETL Big Data do ekstrakcji danych z mediów społecznościowych
- Tekst, obraz, metadane i wideo
- Analiza nastroju z kanałów mediów społecznościowych
- Filtrowanie kontekstowe i niekontekstowe kanałów mediów społecznościowych
- Tablica rozkładu danych mediów społecznościowych do integracji różnorodnych mediów społecznościowych
- Automatyczne profilowanie profili w mediach społecznościowych
- Demo każdego rodzaju analizy poprzez narzędzie Treeminer
Analiza Big Data w przetwarzaniu obrazów i strumieni wideo
- Techniki przechowywania obrazów w Big Data – rozwiązania do przechowywania danych o objętości powyżej petabajtów
- LTFS (Linear Tape File System) i LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) – warstwowane rozwiązanie do przechowywania dużych danych obrazowych
- Podstawy analizy obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazów
- Sledzenie ruchu
- Odtworzenie 3-D obrazu
Biometryczne, DNA i programy identyfikacji nowej generacji
- Poza odciskami palców i rozpoznawaniem twarzy
- Rozpoznawanie mowy, analiza zapisu (badanie wzorców pisania użytkownika) i CODIS (zespolony system indeksowania DNA)
- Poza dopasowaniem DNA: użycie forenzyki DNA fenotypowej do konstruowania twarzy na podstawie próbek DNA
Tablica rozkładu Big Data dla szybkiego dostępu do różnorodnych danych i wyświetlania:
- Integracja istniejącej platformy aplikacji z tablicą rozkładu Big Data
- Zarządzanie Big Data
- Przypadek użycia tablicy rozkładu Big Data: Tableau i Pentaho
- Użyj aplikacji Big Data do wprowadzania usług lokalizacyjnych w rządzie
- System śledzenia i zarządzanie
Dzień 05
Jak usprawiedliwić implementację Big Data BI w organizacji:
- Zdefiniowanie ROI (Return on Investment) dla wdrożenia Big Data
- Przypadki zastosowania oszczędzające czas analityków przy zbieraniu i przygotowywaniu danych – zwiększenie produktywności
- Korzyści zniżonego kosztu licencji bazy danych
- Zysk ze usług lokalizacyjnych
- Oszczędności wynikające z zapobiegania oszustwom
- Integrowane podejście arkusza kalkulacyjnego do przybliżonego rozliczania kosztów w stosunku do zysków/oszczędności od wdrożenia Big Data.
Krok po kroku procedura zastępowania legacies systemu danych systemem Big Data
- Roadmap Migracji Big Data
- Jakie kluczowe informacje są potrzebne przed zaprojektowaniem systemu Big Data?
- Jakie są różne sposoby na obliczanie objętości, przepustowości, różnorodności i prawdziwości danych
- Jak oszacować wzrost danych
- Przypadki zastosowania
Przegląd dostawców Big Data oraz ich produktów.
- Accenture
- APTEAN (dotyczy CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dotyczy 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
Sesja Q&A
Wymagania
- Znajomość procesów policyjnych i systemów danych
- Podstawowe zrozumienie SQL/Oracle lub relacyjnej bazy danych
- Podstawowe zrozumienie statystyki (na poziomie arkusza kalkulacyjnego)
Grupa docelowa
- Specjaliści policyjni z tłem technicznym
Opinie uczestników (2)
Trujące tematy przedstawione w prosty, przyjazny użytkownikowi sposób
Marcin - GE Medical Systems Polska Sp. z o.o.
Szkolenie - Introduction to Predictive AI
Przetłumaczone przez sztuczną inteligencję
Forma prowadzenia jako zajęć interaktywnych