Plan Szkolenia

Dzień 01

Przegląd Big Data Business Intelligence dla Analizy Inteligencji Kryminalnej

  • Przypadki zastosowania z dziedziny policyjnej - przewidywana policja
  • Tempo wdrażania technologii Big Data w agencjach policyjnych i sposób, w jaki dostosowują swoje przyszłe działania do analizy predykcyjnej Big Data
  • Powstające technologiczne rozwiązania, takie jak czujniki strzelaniny, nadzór wideo i media społecznościowe
  • Korzystanie z technologii Big Data w celu ograniczenia przeciążenia informacjami
  • Integrowanie Big Data z starszymi danymi
  • Podstawowe zrozumienie technologii umożliwiających analizę predykcyjną
  • Integracja danych i wizualizacja na pulpicie nawigacyjnym
  • Zarządzanie oszustwami
  • Reguły biznesowe i wykrywanie oszustw
  • Wykrywanie zagrożeń i profilowanie
  • Koszty i korzyści z wdrożenia Big Data

Wprowadzenie do Big Data

  • Główne cechy Big Data -- Objętość, Zróżnicowanie, Przepustowość i Prawdziwość.
  • Architektura MPP (Massively Parallel Processing)
  • Data Warehouses – statyczny schemat, powolnie ewoluujący zbiór danych
  • Bazy danych MPP: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop – bez warunków struktury zbioru danych.
  • Typowy wzorzec : HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Apache Spark do przetwarzania strumieniowego
  • Przetwarzanie partiami - odpowiednie dla analizy/nieinteraktywnej
  • Objętość : CEP dane strumieniowe
  • Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji – Storm/S4
  • NoSQL Bazy danych – (kolumnowe i klucz-wartość): najlepiej nadające się jako analityczne uzupełnienie do data warehouse/bazy danych

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchiczny) - GT.m, Cache
  • KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektów - ZopeDB, DB40, Shoal
  • Dokumentowy store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Szeroki magazyn kolumnowy - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Odmienności danych: Wprowadzenie do problemów czyszczenia danych w Big Data

  • RDBMS – statyczna struktura/schemat, nie promuje zwinnych, eksploracyjnych środowisk.
  • NoSQL – półstrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
  • Problemy czyszczenia danych

Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTUROWANE - Przedsiębiorcze data warehouses/bazy danych mogą przechowywać ogromne zbiory danych (z kosztami), ale narzucają strukturę (nie dobre dla aktywnej eksploracji)
  • SEMI STRUKTUROWANE dane – trudne do przeprowadzenia przy użyciu tradycyjnych rozwiązań (DW/DB)
  • Magażynowanie danych = ogromny wysiłek i statyczne nawet po wdrożeniu
  • Dla różnorodności i objętości danych, przetwarzanych na tani hardware – HADOOP
  • Tani H/W potrzebny do stworzenia klastra Hadoop

Wprowadzenie do Map Reduce/HDFS

  • MapReduce – rozproszone obliczenia na wielu serwerach
  • HDFS – dostarczanie danych lokalnie dla procesu obliczeniowego (z nadmiarem)
  • Dane – mogą być niestrukturyzowane/bezschematyczne (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za interpretację danych
  • Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień 02

Ekosystem Big Data -- Budowanie Big Data ETL (Extract, Transform, Load) -- Które narzędzia Big Data użyć i kiedy?

  • Hadoop vs. inne rozwiązania NoSQL
  • Do interaktywnego, losowego dostępu do danych
  • Hbase (baza danych zorientowana na kolumny) nad Hadoopem
  • Losowy dostęp do danych ale z ograniczeniami (max 1 PB)
  • Nie nadaje się do ad-hoc analiz, dobre dla logowania, liczenia, szeregów czasowych
  • Sqoop - Importowanie danych z baz do Hive lub HDFS (JDBC/ODBC access)
  • Flume – przesyłanie strumieniowego danych (np. logów) do HDFS

Zarządzanie Systemem Big Data

  • Części w ruchu, start/niepowodzenie węzłów obliczeniowych: ZooKeeper - dla konfiguracji/koordynacji/ustawień nazw
  • Skomplikowane potoki/przezprocesy: Oozie – zarządzanie przepływem pracy, zależnościami, łańcuchowymi procesami
  • Wdrażanie, konfigurowanie, zarządzanie klastrem, aktualizacje itp. (sys admin): Ambari
  • Na chmurze: Whirr

Analiza predykcyjna -- Podstawowe techniki i Business Intelligence oparte na uczeniu maszynowym

  • Wprowadzenie do uczenia maszynowego
  • Nauka technik klasyfikacji
  • Bayesowskie przewidywanie -- przygotowanie pliku treningowego
  • Maszyna wektorów nośnych (SVM)
  • KNN p-Tree Algebra i wydobywanie pionowe
  • Sieci neuronowe
  • Problem dużej liczby zmiennych w Big Data – Las losowy (RF)
  • Problematyka automatyzacji w Big Data – Wielomodelowy ensemble RF
  • Automatyzacja przez Soft10-M
  • Narzędzie do analizy tekstu - Treeminer
  • Nauka zwinna
  • Nauka oparta na agentach
  • Distributed learning
  • Wprowadzenie do Open source narzędzi dla analizy predykcyjnej: R, Python, Rapidminer, Mahut

Ekosystem analizy predykcyjnej i jego zastosowanie w analizie inteligencji kryminalnej

  • Technologia i proces śledczy
  • Analiza wnikliwa
  • Analiza wizualna
  • Strukturalna analiza predykcyjna
  • Niestrukturalna analiza predykcyjna
  • Profilowanie zagrożeń/oszustw/odczytaczy
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrywanie scenariuszy/reguł – awaria, oszustwo, optymalizacja
  • Odkrywanie przyczyn korzeniowych
  • Analiza nastroju
  • Analiza CRM
  • Analiza sieciowa
  • Analiza tekstu do uzyskiwania wglądu z transkryptów, zeznań świadków, plotek internetowych itp.
  • Technologia wspomagająca rewizję
  • Analiza oszustw
  • Analiza w czasie rzeczywistym

Dzień 03

Analiza w czasie rzeczywistym i skalowalna na Hadoop

  • Dlaczego powszechnie używane algorytmy analizy zawodzą w Hadoop/HDFS
  • Apache Hama - do rozproszonego obliczenia synchronicznego
  • Apache SPARK - do obliczeń klastrowych i analizy w czasie rzeczywistym
  • CMU Graphics Lab2 - asynchroniczne podejście oparte na grafach do rozproszonego obliczenia
  • KNN p - algebraiczne podejście z Treeminer do zmniejszenia kosztów sprzętowych operacji

Narzędzia do eDiscovery i kryminalistiki

  • eDiscovery na Big Data vs. starszych danych – porównanie kosztów i wydajności
  • Przewidywalne kodowanie i Technologia Wspomagana Rewizja (TAR)
  • Demo vMiner, aby zrozumieć, jak TAR umożliwia szybszą rewizję
  • Szybsze indeksowanie poprzez HDFS – prędkość danych
  • NLP (Przetwarzanie języka naturalnego) – produkty i techniki open source
  • eDiscovery w językach obcych – technologia do przetwarzania języków obcych

Big Data BI dla cyberbezpieczeństwa – uzyskiwanie kompleksowego widoku, szybkie zbieranie danych i identyfikacja zagrożeń

  • Zrozumienie podstaw analizy bezpieczeństwa – powierzchnia ataku, błędy konfiguracji bezpieczeństwa, obrona hostów
  • Infrastruktura sieciowa / duży przepustowy kanal / Response ETL dla analizy w czasie rzeczywistym
  • Predykcyjne vs preskryptywne – stałe reguły oparte na metadanych vs automatyczne odkrywanie reguł zagrożeń

Zbieranie rozproszonych danych dla analizy inteligencji kryminalnej

  • Korzystanie z IoT (Internet of Things) jako czujników do zbierania danych
  • Korzystanie z satelitarnych zdjęć do nadzoru w kraju
  • Korzystanie ze zdjęć i danych obrazowych do identyfikacji przestępców
  • Inne technologie gromadzenia danych – drony, kamery ciałowe, systemy GPS i technologia termiczna
  • Połączenie automatycznego pobierania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
  • Prognozowanie działalności kryminalnej

Dzień 04

Biznesowa inteligencja w celu zapobiegania oszustwom z Big Data w analizie oszustw

  • Podstawowa klasyfikacja Analizy Oszustw – reguły oparte vs predykcyjne
  • Supervised vs unsupervised Machine learning do wykrywania wzorców oszustw
  • Oszustwa B2B, fałszywe roszczenia medyczne, oszustwa ubezpieczeniowe, unikanie podatków i pranie pieniędzy

Analiza mediów społecznościowych – gromadzenie i analiza intelektualna

  • Jak media społecznościowe są wykorzystywane przez przestępców do organizacji, werbunku i planowania
  • API ETL Big Data do ekstrakcji danych z mediów społecznościowych
  • Tekst, obraz, metadane i wideo
  • Analiza nastroju z kanałów mediów społecznościowych
  • Filtrowanie kontekstowe i niekontekstowe kanałów mediów społecznościowych
  • Tablica rozkładu danych mediów społecznościowych do integracji różnorodnych mediów społecznościowych
  • Automatyczne profilowanie profili w mediach społecznościowych
  • Demo każdego rodzaju analizy poprzez narzędzie Treeminer

Analiza Big Data w przetwarzaniu obrazów i strumieni wideo

  • Techniki przechowywania obrazów w Big Data – rozwiązania do przechowywania danych o objętości powyżej petabajtów
  • LTFS (Linear Tape File System) i LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) – warstwowane rozwiązanie do przechowywania dużych danych obrazowych
  • Podstawy analizy obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazów
  • Sledzenie ruchu
  • Odtworzenie 3-D obrazu

Biometryczne, DNA i programy identyfikacji nowej generacji

  • Poza odciskami palców i rozpoznawaniem twarzy
  • Rozpoznawanie mowy, analiza zapisu (badanie wzorców pisania użytkownika) i CODIS (zespolony system indeksowania DNA)
  • Poza dopasowaniem DNA: użycie forenzyki DNA fenotypowej do konstruowania twarzy na podstawie próbek DNA

Tablica rozkładu Big Data dla szybkiego dostępu do różnorodnych danych i wyświetlania:

  • Integracja istniejącej platformy aplikacji z tablicą rozkładu Big Data
  • Zarządzanie Big Data
  • Przypadek użycia tablicy rozkładu Big Data: Tableau i Pentaho
  • Użyj aplikacji Big Data do wprowadzania usług lokalizacyjnych w rządzie
  • System śledzenia i zarządzanie

Dzień 05

Jak usprawiedliwić implementację Big Data BI w organizacji:

  • Zdefiniowanie ROI (Return on Investment) dla wdrożenia Big Data
  • Przypadki zastosowania oszczędzające czas analityków przy zbieraniu i przygotowywaniu danych – zwiększenie produktywności
  • Korzyści zniżonego kosztu licencji bazy danych
  • Zysk ze usług lokalizacyjnych
  • Oszczędności wynikające z zapobiegania oszustwom
  • Integrowane podejście arkusza kalkulacyjnego do przybliżonego rozliczania kosztów w stosunku do zysków/oszczędności od wdrożenia Big Data.

Krok po kroku procedura zastępowania legacies systemu danych systemem Big Data

  • Roadmap Migracji Big Data
  • Jakie kluczowe informacje są potrzebne przed zaprojektowaniem systemu Big Data?
  • Jakie są różne sposoby na obliczanie objętości, przepustowości, różnorodności i prawdziwości danych
  • Jak oszacować wzrost danych
  • Przypadki zastosowania

Przegląd dostawców Big Data oraz ich produktów.

  • Accenture
  • APTEAN (dotyczy CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dotyczy 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Sesja Q&A

Wymagania

  • Znajomość procesów policyjnych i systemów danych
  • Podstawowe zrozumienie SQL/Oracle lub relacyjnej bazy danych
  • Podstawowe zrozumienie statystyki (na poziomie arkusza kalkulacyjnego)

Grupa docelowa

  • Specjaliści policyjni z tłem technicznym
 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie