Bądźmy w kontakcie

Plan Szkolenia

Dzień 01

Przegląd Big Data Business Intelligence dla Analizy Wywiadu Kryminalnego

  • Studia przypadków z dziedziny ścigania – Policja predykcyjna
  • Wskaźnik adopcji Big Data w agencjach ścigania i jak dostosowują one swoje przyszłe działania do predykcyjnej analityki Big Data
  • Nowoczesne rozwiązania technologiczne, takie jak czujniki strzałów, monitoring wideo i media społecznościowe
  • Wykorzystanie technologii Big Data do łagodzenia przeciążenia informacjami
  • Integracja Big Data z danymi legacy
  • Podstawowe zrozumienie technologii wspierających analitykę predykcyjną
  • Integracja danych i wizualizacja na dashboardach
  • Zarządzanie oszustwami
  • Reguły biznesowe i wykrywanie oszustw
  • Wykrywanie zagrożeń i profilowanie
  • Analiza kosztów i korzyści wdrożenia Big Data

Wprowadzenie do Big Data

  • Główne cechy Big Data – objętość, różnorodność, szybkość i wiarygodność.
  • Architektura MPP (Massively Parallel Processing)
  • Hurtownie danych – statyczny schemat, powoli ewoluujący zbiór danych
  • Bazy danych MPP: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Rozwiązania oparte na Hadoop – brak wymagań co do struktury zbioru danych.
  • Typowy wzorzec: HDFS, MapReduce (przetwarzanie), pobieranie z HDFS
  • Apache Spark do przetwarzania strumieniowego
  • Przetwarzanie wsadowe – odpowiednie do analiz/nieinteraktywnych
  • Objętość: dane strumieniowe CEP
  • Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji – Storm/S4
  • Bazy danych NoSQL – (kolumnowe i klucz-wartość): Najlepiej nadające się jako analityczne uzupełnienie hurtowni danych/bazy danych

Rozwiązania NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchiczny) - GT.m, Cache
  • KV Store (Uporządkowany) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Baza danych obiektowych - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Różnorodność danych: Wprowadzenie do problemów z czyszczeniem danych w Big Data

  • RDBMS – statyczna struktura/schemat, nie sprzyja elastycznemu, eksploracyjnemu środowisku.
  • NoSQL – częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisem danych
  • Problemy z czyszczeniem danych

Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURALNE – Hurtownie danych/bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (kosztownie), ale narzucają strukturę (nie dobre do aktywnej eksploracji)
  • Dane CZĘŚCIOWO STRUKTURALNE – trudne do przetworzenia przy użyciu tradycyjnych rozwiązań (hurtownie danych/bazy danych)
  • Przechowywanie danych = OGROMNY wysiłek i statyczne nawet po wdrożeniu
  • Dla różnorodności i objętości danych, przetwarzane na sprzęcie masowym – HADOOP
  • Potrzebny sprzęt masowy do utworzenia klastra Hadoop

Wprowadzenie do MapReduce /HDFS

  • MapReduce – rozproszone przetwarzanie na wielu serwerach
  • HDFS – udostępnienie danych lokalnie dla procesu przetwarzania (z redundancją)
  • Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
  • Obowiązkiem programisty jest nadanie sensu danym
  • Programowanie MapReduce = praca z Javą (zalety/wady), ręczne ładowanie danych do HDFS

Dzień 02

Ekosystem Big Data – Budowanie ETL (Extract, Transform, Load) dla Big Data – Które narzędzia Big Data wybrać i kiedy?

  • Hadoop vs. Inne rozwiązania NoSQL
  • Do interaktywnego, losowego dostępu do danych
  • Hbase (baza danych kolumnowa) na szczycie Hadoop
  • Losowy dostęp do danych, ale z ograniczeniami (max 1 PB)
  • Nie dobre do ad-hoc analiz, dobre do logowania, liczenia, szeregów czasowych
  • Sqoop - Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume – Przesyłanie danych strumieniowych (np. logów) do HDFS

System zarządzania Big Data

  • Ruchome części, węzły obliczeniowe uruchamiają się/awarie :ZooKeeper - Do konfiguracji/koordynacji/usług nazewnictwa
  • Złożony pipeline/workflow: Oozie – zarządzanie workflow, zależnościami, łańcuch daisy
  • Wdrażanie, konfiguracja, zarządzanie klastrem, aktualizacje itp. (administracja systemem) :Ambari
  • W chmurze : Whirr

Analityka predykcyjna – Podstawowe techniki i analityka biznesowa oparta na uczeniu maszynowym

  • Wprowadzenie do uczenia maszynowego
  • Techniki klasyfikacji
  • Predykcja bayesowska – przygotowanie pliku treningowego
  • Maszyna wektorów nośnych
  • KNN p-Tree Algebra & pionowe wydobywanie
  • Sieci neuronowe
  • Problem dużych zmiennych w Big Data – Random forest (RF)
  • Problem automatyzacji Big Data – Multi-model ensemble RF
  • Automatyzacja poprzez Soft10-M
  • Narzędzie do analizy tekstu – Treeminer
  • Elastyczne uczenie
  • Uczenie oparte na agentach
  • Rozproszone uczenie
  • Wprowadzenie do narzędzi open source do analityki predykcyjnej : R, Python, Rapidminer, Mahut

Ekosystem analityki predykcyjnej i jej zastosowanie w analizie wywiadu kryminalnego

  • Technologia i proces śledczy
  • Analityka wglądu
  • Analityka wizualizacyjna
  • Strukturalna analityka predykcyjna
  • Niestrukturalna analityka predykcyjna
  • Profilowanie zagrożeń/oszustw/dostawców
  • Silnik rekomendacyjny
  • Wykrywanie wzorców
  • Odkrywanie reguł/scenariuszy – awarie, oszustwa, optymalizacja
  • Odkrywanie przyczyn źródłowych
  • Analiza sentymentu
  • Analityka CRM
  • Analityka sieciowa
  • Analityka tekstu do uzyskiwania wglądu z transkryptów, zeznań świadków, rozmów internetowych itp.
  • Technologia wspomagająca przegląd
  • Analityka oszustw
  • Analityka w czasie rzeczywistym

Dzień 03

Analityka w czasie rzeczywistym i skalowalna na Hadoop

  • Dlaczego powszechne algorytmy analityczne zawodzą w Hadoop/HDFS
  • Apache Hama- do synchronicznego przetwarzania zbiorczego
  • Apache SPARK- do przetwarzania klastrowego i analityki w czasie rzeczywistym
  • CMU Graphics Lab2- Grafowe asynchroniczne podejście do przetwarzania rozproszonego
  • KNN p – Algebraiczne podejście z Treeminer do obniżenia kosztów sprzętowych operacji

Narzędzia do eDiscovery i Forensyki

  • eDiscovery na Big Data vs. Dane legacy – porównanie kosztów i wydajności
  • Predykcyjne kodowanie i Technology Assisted Review (TAR)
  • Demonstracja na żywo vMiner, aby zrozumieć, jak TAR umożliwia szybsze odkrywanie
  • Szybsze indeksowanie poprzez HDFS – Szybkość danych
  • NLP (Przetwarzanie języka naturalnego) – produkty i techniki open source
  • eDiscovery w językach obcych – technologia do przetwarzania języków obcych

Big Data BI dla cyberbezpieczeństwa – Uzyskanie widoku 360-stopni, szybkie gromadzenie danych i identyfikacja zagrożeń

  • Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja bezpieczeństwa, obrona hosta
  • Infrastruktura sieciowa / Duży przepływ danych / ETL odpowiedzi dla analityki w czasie rzeczywistym
  • Preskryptywna vs predykcyjna – Stałe reguły vs automatyczne odkrywanie reguł zagrożeń z metadanych

Gromadzenie różnorodnych danych do analizy wywiadu kryminalnego

  • Wykorzystanie IoT (Internet of Things) jako czujników do przechwytywania danych
  • Wykorzystanie obrazów satelitarnych do nadzoru krajowego
  • Wykorzystanie danych z monitoringu i obrazów do identyfikacji przestępców
  • Inne technologie gromadzenia danych – drony, kamery na ciele, systemy tagowania GPS i technologia termowizyjna
  • Łączenie automatycznego pobierania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
  • Prognozowanie działalności przestępczej

Dzień 04

Zapobieganie oszustwom BI z Big Data w analityce oszustw

  • Podstawowa klasyfikacja analityki oszustw – reguły vs analityka predykcyjna
  • Nadzorowane vs nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwa B2B, oszustwa w roszczeniach medycznych, oszustwa ubezpieczeniowe, uchylanie się od podatków i pranie pieniędzy

Analityka mediów społecznościowych – Gromadzenie i analiza wywiadu

  • Jak przestępcy wykorzystują media społecznościowe do organizowania, rekrutacji i planowania
  • API ETL Big Data do ekstrakcji danych z mediów społecznościowych
  • Tekst, obraz, metadane i wideo
  • Analiza sentymentu z feedów mediów społecznościowych
  • Filtrowanie kontekstowe i niekontekstowe feedów mediów społecznościowych
  • Dashboard mediów społecznościowych do integracji różnych mediów społecznościowych
  • Automatyczne profilowanie profili mediów społecznościowych
  • Demonstracja na żywo każdej analityki za pomocą narzędzia Treeminer

Analityka Big Data w przetwarzaniu obrazów i strumieni wideo

  • Techniki przechowywania obrazów w Big Data – Rozwiązania do przechowywania danych przekraczających petabajty
  • LTFS (Linear Tape File System) i LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) – warstwowe rozwiązanie do przechowywania dużych danych obrazowych
  • Podstawy analityki obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazów
  • Śledzenie ruchu
  • Rekonstrukcja obrazów 3D

Biometria, DNA i programy identyfikacji nowej generacji

  • Poza odciskami palców i rozpoznawaniem twarzy
  • Rozpoznawanie mowy, analiza wzorców pisania na klawiaturze i CODIS (Combined DNA Index System)
  • Poza dopasowaniem DNA: wykorzystanie fenotypowania DNA do rekonstrukcji twarzy z próbek DNA

Dashboard Big Data do szybkiego dostępu do różnorodnych danych i wyświetlania :

  • Integracja istniejącej platformy aplikacyjnej z dashboardem Big Data
  • Zarządzanie Big Data
  • Studium przypadku dashboardu Big Data: Tableau i Pentaho
  • Wykorzystanie aplikacji Big Data do oferowania usług opartych na lokalizacji w rządzie.
  • System śledzenia i zarządzania

Dzień 05

Jak uzasadnić wdrożenie Big Data BI w organizacji:

  • Definiowanie ROI (Return on Investment) dla wdrożenia Big Data
  • Studia przypadków dotyczące oszczędności czasu analityków w gromadzeniu i przygotowaniu danych – zwiększenie produktywności
  • Zysk z niższych kosztów licencji baz danych
  • Zysk z usług opartych na lokalizacji
  • Oszczędności z zapobiegania oszustwom
  • Zintegrowane podejście arkusza kalkulacyjnego do obliczania przybliżonych kosztów vs. Zysk/oszczędności z wdrożenia Big Data.

Krok po kroku procedura zastąpienia systemu danych legacy systemem Big Data

  • Mapa drogowa migracji Big Data
  • Jakie kluczowe informacje są potrzebne przed zaprojektowaniem systemu Big Data?
  • Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i wiarygodności danych
  • Jak oszacować wzrost danych
  • Studia przypadków

Przegląd dostawców Big Data i ich produktów.

  • Accenture
  • APTEAN (Dawniej CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Część EMC)

Sesja pytań i odpowiedzi

Wymagania

  • Znajomość procesów ścigania i systemów danych
  • Podstawowa znajomość SQL/Oracle lub relacyjnych baz danych
  • Podstawowa znajomość statystyki (na poziomie arkusza kalkulacyjnego)

Grupa docelowa

  • Specjaliści z dziedziny ścigania z technicznym zapleczem
 35 godzin

Liczba uczestników


Cena za uczestnika (netto)

Opinie uczestników (3)

Propozycje terminów

Powiązane Kategorie