Schulungsübersicht
=====
Tag 01
=====
Überblick über Big Data Business Intelligence für die kriminalpolizeiliche Analyse
- Fallstudien aus der Strafverfolgung - Predictive Policing
- Big Data Business Die Akzeptanz von Predictive Policing in den Strafverfolgungsbehörden und wie sie ihre zukünftigen Abläufe darauf ausrichten Big Data Predictive Analytics
- Neue technologische Lösungen wie Schusswaffensensoren, Überwachungsvideos und soziale Medien
- Einsatz von Big Data-Technologie zur Verringerung der Informationsflut
- Verknüpfung von Big Data mit Altdaten
- Grundlegendes Verständnis der Grundlagentechnologien für prädiktive Analysen
- Data Integration & Dashboard-Visualisierung
- Betrugsmanagement
- Business Regeln und Betrugserkennung
- Bedrohungserkennung und Profiling
- Kosten-Nutzen-Analyse für Big Data-Implementierung
Einführung in Big Data
- Hauptmerkmale von Big Data - Volumen, Vielfalt, Geschwindigkeit und Wahrhaftigkeit.
- MPP-Architektur (Massive Parallel Processing)
- Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop-basierte Lösungen - keine Bedingungen an die Struktur des Datensatzes.
- Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
- Apache Spark für Stromverarbeitung
- Batch- geeignet für analytische/nicht interaktive
- Umfang : CEP-Streaming-Daten
- Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
- Weniger produktionsreif - Storm/S4
- NoSQL Databases - (spaltenförmig und Key-Value): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank
NoSQL Lösungen
- KV-Speicher - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-Speicher - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-Speicher (Hierarchisch) - GT.m, Cache
- KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel-Speicher - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Breiter spaltenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Arten von Daten: Einführung in Data Cleaning Themen in Big Data
- RDBMS - statische Struktur/Schema, fördert keine agile, explorative Umgebung.
- NoSQL - halbstrukturiert, genügend Struktur zum Speichern von Daten ohne genaues Schema vor dem Speichern der Daten
- Probleme bei der Datenbereinigung
Hadoop
- Wann sollte man Hadoop wählen?
- STRUKTURIERT - Data-Warehouses/Datenbanken in Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
- SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
- Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
- Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
- Commodity-Hardware erforderlich, um einen Hadoop Cluster zu erstellen
Einführung in MapReduce /HDFS
- MapReduce - Verteilen der Datenverarbeitung auf mehrere Server
- HDFS - stellt Daten lokal für den Rechenprozess zur Verfügung (mit Redundanz)
- Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
- Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
- Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS
=====
Tag 02
=====
Big Data Ökosystem - Aufbau von Big Data ETL (Extrahieren, Transformieren, Laden) - Welche Big Data Tools verwenden und wann?
- Hadoop vs. andere NoSQL Lösungen
- Für interaktiven, wahlfreien Zugriff auf Daten
- Hbase (spaltenorientierte Datenbank) auf der Basis von Hadoop
- Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
- Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
- Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
- Flume - Streaming von Daten (z.B. Log-Daten) in HDFS
Big Data Management System
- Bewegliche Teile, Start/Ausfall von Rechenknoten :ZooKeeper - Für Konfigurations-/Koordinations-/Benennungsdienste
- Komplexe Pipeline/Workflow: Oozie - Verwaltung von Arbeitsabläufen, Abhängigkeiten, Daisy Chain
- Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
- In der Cloud: Whirr
Predictive Analytics -- Grundlegende Techniken und Machine Learning basierte Business Intelligenz
- Einführung in Machine Learning
- Klassifizierungstechniken lernen
- Bayessche Vorhersage - Vorbereitung einer Trainingsdatei
- Support-Vektor-Maschine
- KNN p-Tree Algebra & vertikales Mining
- Neural Networks
- Big Data Problem mit großen Variablen - Random Forest (RF)
- Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
- Automatisierung durch Soft10-M
- Textanalytisches Werkzeug - Treeminer
- Agile Lernen
- Agentenbasiertes Lernen
- Verteiltes Lernen
- Einführung in Open-Source-Tools für prädiktive Analytik: R, Python, Rapidminer, Mahut
Predictive Analytics Ökosystem und seine Anwendung in der kriminalpolizeilichen Analyse
- Technologie und der Ermittlungsprozess
- Einsichtsanalytik
- Visualisierte Analytik
- Strukturierte prädiktive Analytik
- Unstrukturierte prädiktive Analytik
- Erstellung von Bedrohungs-/Betrugsstar-/Anbieterprofilen
- Empfehlungsmaschine
- Erkennung von Mustern
- Regel-/Szenarioerkennung - Ausfall, Betrug, Optimierung
- Entdeckung der Grundursache
- Sentiment-Analyse
- CRM-Analytik
- Netzwerk-Analysen
- Textanalyse zur Gewinnung von Erkenntnissen aus Protokollen, Zeugenaussagen, Internet-Chatter usw.
- Technologiegestützte Überprüfung
- Betrugsanalytik
- Echtzeit-Analytik
=====
Tag 03
=====
Echtzeit- und Scalable-Analytik über Hadoop
- Warum gängige analytische Algorithmen in Hadoop/HDFS versagen
- Apache Hama- für Bulk-Synchronous Distributed Computing
- Apache SPARK- für Cluster-Computing und Echtzeit-Analytik
- CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
- KNN p -- Algebra-basierter Ansatz von Treeminer für reduzierte Hardware-Betriebskosten
Werkzeuge für eDiscovery und Forensik
- eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
- Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
- Live-Demo von vMiner zum Verständnis, wie TAR eine schnellere Discovery ermöglicht
- Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
- NLP (Natural Language processing) - Open Source Produkte und Techniken
- eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung
Big Data BI für Cyber Security - Erlangung eines 360-Grad-Blicks, schnelle Datenerfassung und Identifizierung von Bedrohungen
- Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, falsche Sicherheitskonfiguration, Host-Verteidigung
- Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analysen
- Prädiktiv vs. prädiktiv - feste Regeln vs. automatische Erkennung von Bedrohungsregeln aus Metadaten
Sammeln unterschiedlicher Daten für kriminalistische Analysen
- Einsatz von IoT (Internet der Dinge) als Sensoren zur Datenerfassung
- Nutzung von Satellitenbildern für die Inlandsüberwachung
- Nutzung von Überwachungs- und Bilddaten für die Identifizierung von Kriminellen
- Andere Technologien zur Datenerfassung - Drohnen, Körperkameras, GPS-Tagging-Systeme und Wärmebildtechnik
- Kombination von automatisiertem Datenabruf mit Daten, die durch Informanten, Verhöre und Forschung gewonnen wurden
- Forecasting kriminelle Aktivitäten
=====
Tag 04
=====
Betrugsprävention BI von Big Data in Fraud Analytics
- Grundlegende Klassifizierung von Fraud Analytics - regelbasierte vs. prädiktive Analytik
- Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
- Business zu Geschäftsbetrug, Betrug bei medizinischen Leistungen, Versicherungsbetrug, Steuerhinterziehung und Geldwäsche
Social Media Analytik - Sammlung und Analyse von Informationen
- Wie Social Media von Kriminellen zur Organisation, Rekrutierung und Planung genutzt wird
- Big Data ETL-API für die Extraktion von Social-Media-Daten
- Text, Bild, Metadaten und Video
- Stimmungsanalyse aus Social Media Feeds
- Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
- Social Media Dashboard zur Integration verschiedener sozialer Medien
- Automatisierte Profilerstellung von Social Media Profilen
- Eine Live-Demonstration der einzelnen Analyseverfahren wird mit dem Treeminer Tool durchgeführt
Big Data Analytik in der Bildverarbeitung und in Video-Feeds
- Bildspeichertechniken in Big Data -- Speicherlösung für Daten im Petabyte-Bereich
- LTFS (Linear Tape File System) und LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- mehrschichtige Speicherlösung für große Bilddaten
- Grundlagen der Bildanalytik
- Objekt-Erkennung
- Segmentierung von Bildern
- Bewegungsverfolgung
- 3-D Bildrekonstruktion
Bio Metrik, DNA und Identifizierungsprogramme der nächsten Generation
- Über Fingerabdrücke und Gesichtserkennung hinaus
- Spracherkennung, Tastenanschlag (Analyse des Tippmusters eines Benutzers) und CODIS (kombiniertes DNA-Index-System)
- Über den DNA-Abgleich hinaus: Verwendung der forensischen DNA-Phänotypisierung zur Konstruktion eines Gesichts aus DNA-Proben
Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Anzeige:
- Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
- Big Data Verwaltung
- Fallstudie zu Big Data Dashboard: Tableau und Pentaho
- Verwendung der Big Data-App für standortbezogene Dienste in Govt.
- Tracking-System und Verwaltung
=====
Tag 05
=====
Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?
- Definition des ROI (Return on Investment) für die Implementierung von Big Data
- Fallstudien zur Einsparung von Analystenzeit bei der Datensammlung und -aufbereitung - Steigerung der Produktivität
- Umsatzsteigerung durch geringere Kosten für Datenbanklizenzen
- Umsatzsteigerung durch standortbezogene Dienste
- Kosteneinsparungen durch Betrugsprävention
- Ein integrierter Tabellenkalkulationsansatz für die Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen durch die Implementierung von Big Data.
Schritt-für-Schritt-Verfahren zum Ersetzen eines alten Datensystems durch ein Big Data-System
- Big Data Migrationsfahrplan
- Welche wichtigen Informationen werden vor der Entwicklung eines Big Data-Systems benötigt?
- Welche verschiedenen Methoden gibt es zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
- Wie kann man das Datenwachstum abschätzen?
- Fallstudien
Überprüfung von Big Data-Anbietern und deren Produkten.
- Accenture
- APTEAN (ehemals CDC Software)
- Cisco Systeme
- Cloudera
- Dell
- EMC
- GoodData Gesellschaft
- Guavus
- Hitachi Datensysteme
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (ehemals 10Gen)
- MU Sigma
- Netapp
- Opera-Lösungen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytik
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terracotta
- Soft10 Automatisierung
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytik
- Tidemark-Systeme
- Treeminer
- VMware (Teil von EMC)
Q/A-Sitzung
Voraussetzungen
- Kenntnisse über Strafverfolgungsprozesse und Datensysteme
- Grundkenntnisse in SQL/Oracle oder relationaler Datenbank
- Grundkenntnisse in Statistik (auf Tabellenkalkulationsniveau)
Erfahrungsberichte (4)
Klare Erklärungen mit guten Beispielen, so dass ich mich auf meinen eigenen Arbeitsbereich beziehen konnte.
Elaine Vermeulen - Sandoz BV
Kurs - Alteryx for Developers
Maschinelle Übersetzung
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Kurs - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Kurs - Alteryx for Data Analysis
team work