Schulungsübersicht

=====
Tag 01
=====
Überblick über Big Data Business Intelligence für die kriminalpolizeiliche Analyse

  • Fallstudien aus der Strafverfolgung - Predictive Policing
  • Big Data Business Die Akzeptanz von Predictive Policing in den Strafverfolgungsbehörden und wie sie ihre zukünftigen Abläufe darauf ausrichten Big Data Predictive Analytics
  • Neue technologische Lösungen wie Schusswaffensensoren, Überwachungsvideos und soziale Medien
  • Einsatz von Big Data-Technologie zur Verringerung der Informationsflut
  • Verknüpfung von Big Data mit Altdaten
  • Grundlegendes Verständnis der Grundlagentechnologien für prädiktive Analysen
  • Data Integration & Dashboard-Visualisierung
  • Betrugsmanagement
  • Business Regeln und Betrugserkennung
  • Bedrohungserkennung und Profiling
  • Kosten-Nutzen-Analyse für Big Data-Implementierung

Einführung in Big Data

  • Hauptmerkmale von Big Data - Volumen, Vielfalt, Geschwindigkeit und Wahrhaftigkeit.
  • MPP-Architektur (Massive Parallel Processing)
  • Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica usw.
  • Hadoop-basierte Lösungen - keine Bedingungen an die Struktur des Datensatzes.
  • Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
  • Apache Spark für Stromverarbeitung
  • Batch- geeignet für analytische/nicht interaktive
  • Umfang : CEP-Streaming-Daten
  • Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
  • Weniger produktionsreif - Storm/S4
  • NoSQL Databases - (spaltenförmig und Key-Value): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank

NoSQL Lösungen

  • KV-Speicher - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV-Speicher - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV-Speicher (Hierarchisch) - GT.m, Cache
  • KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tupel-Speicher - Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Shoal
  • Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Breiter spaltenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Arten von Daten: Einführung in Data Cleaning Themen in Big Data

  • RDBMS - statische Struktur/Schema, fördert keine agile, explorative Umgebung.
  • NoSQL - halbstrukturiert, genügend Struktur zum Speichern von Daten ohne genaues Schema vor dem Speichern der Daten
  • Probleme bei der Datenbereinigung

Hadoop

  • Wann sollte man Hadoop wählen?
  • STRUKTURIERT - Data-Warehouses/Datenbanken in Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
  • SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
  • Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
  • Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
  • Commodity-Hardware erforderlich, um einen Hadoop Cluster zu erstellen

Einführung in MapReduce /HDFS

  • MapReduce - Verteilen der Datenverarbeitung auf mehrere Server
  • HDFS - stellt Daten lokal für den Rechenprozess zur Verfügung (mit Redundanz)
  • Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
  • Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
  • Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS

=====
Tag 02
=====
Big Data Ökosystem - Aufbau von Big Data ETL (Extrahieren, Transformieren, Laden) - Welche Big Data Tools verwenden und wann?

  • Hadoop vs. andere NoSQL Lösungen
  • Für interaktiven, wahlfreien Zugriff auf Daten
  • Hbase (spaltenorientierte Datenbank) auf der Basis von Hadoop
  • Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
  • Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
  • Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
  • Flume - Streaming von Daten (z.B. Log-Daten) in HDFS

Big Data Management System

  • Bewegliche Teile, Start/Ausfall von Rechenknoten :ZooKeeper - Für Konfigurations-/Koordinations-/Benennungsdienste
  • Komplexe Pipeline/Workflow: Oozie - Verwaltung von Arbeitsabläufen, Abhängigkeiten, Daisy Chain
  • Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
  • In der Cloud: Whirr

Predictive Analytics -- Grundlegende Techniken und Machine Learning basierte Business Intelligenz

  • Einführung in Machine Learning
  • Klassifizierungstechniken lernen
  • Bayessche Vorhersage - Vorbereitung einer Trainingsdatei
  • Support-Vektor-Maschine
  • KNN p-Tree Algebra & vertikales Mining
  • Neural Networks
  • Big Data Problem mit großen Variablen - Random Forest (RF)
  • Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
  • Automatisierung durch Soft10-M
  • Textanalytisches Werkzeug - Treeminer
  • Agile Lernen
  • Agentenbasiertes Lernen
  • Verteiltes Lernen
  • Einführung in Open-Source-Tools für prädiktive Analytik: R, Python, Rapidminer, Mahut

Predictive Analytics Ökosystem und seine Anwendung in der kriminalpolizeilichen Analyse

  • Technologie und der Ermittlungsprozess
  • Einsichtsanalytik
  • Visualisierte Analytik
  • Strukturierte prädiktive Analytik
  • Unstrukturierte prädiktive Analytik
  • Erstellung von Bedrohungs-/Betrugsstar-/Anbieterprofilen
  • Empfehlungsmaschine
  • Erkennung von Mustern
  • Regel-/Szenarioerkennung - Ausfall, Betrug, Optimierung
  • Entdeckung der Grundursache
  • Sentiment-Analyse
  • CRM-Analytik
  • Netzwerk-Analysen
  • Textanalyse zur Gewinnung von Erkenntnissen aus Protokollen, Zeugenaussagen, Internet-Chatter usw.
  • Technologiegestützte Überprüfung
  • Betrugsanalytik
  • Echtzeit-Analytik

=====
Tag 03
=====
Echtzeit- und Scalable-Analytik über Hadoop

  • Warum gängige analytische Algorithmen in Hadoop/HDFS versagen
  • Apache Hama- für Bulk-Synchronous Distributed Computing
  • Apache SPARK- für Cluster-Computing und Echtzeit-Analytik
  • CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
  • KNN p -- Algebra-basierter Ansatz von Treeminer für reduzierte Hardware-Betriebskosten

Werkzeuge für eDiscovery und Forensik

  • eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
  • Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
  • Live-Demo von vMiner zum Verständnis, wie TAR eine schnellere Discovery ermöglicht
  • Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
  • NLP (Natural Language processing) - Open Source Produkte und Techniken
  • eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung

Big Data BI für Cyber Security - Erlangung eines 360-Grad-Blicks, schnelle Datenerfassung und Identifizierung von Bedrohungen

  • Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, falsche Sicherheitskonfiguration, Host-Verteidigung
  • Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analysen
  • Prädiktiv vs. prädiktiv - feste Regeln vs. automatische Erkennung von Bedrohungsregeln aus Metadaten

Sammeln unterschiedlicher Daten für kriminalistische Analysen

  • Einsatz von IoT (Internet der Dinge) als Sensoren zur Datenerfassung
  • Nutzung von Satellitenbildern für die Inlandsüberwachung
  • Nutzung von Überwachungs- und Bilddaten für die Identifizierung von Kriminellen
  • Andere Technologien zur Datenerfassung - Drohnen, Körperkameras, GPS-Tagging-Systeme und Wärmebildtechnik
  • Kombination von automatisiertem Datenabruf mit Daten, die durch Informanten, Verhöre und Forschung gewonnen wurden
  • Forecasting kriminelle Aktivitäten

=====
Tag 04
=====
Betrugsprävention BI von Big Data in Fraud Analytics

  • Grundlegende Klassifizierung von Fraud Analytics - regelbasierte vs. prädiktive Analytik
  • Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
  • Business zu Geschäftsbetrug, Betrug bei medizinischen Leistungen, Versicherungsbetrug, Steuerhinterziehung und Geldwäsche

Social Media Analytik - Sammlung und Analyse von Informationen

  • Wie Social Media von Kriminellen zur Organisation, Rekrutierung und Planung genutzt wird
  • Big Data ETL-API für die Extraktion von Social-Media-Daten
  • Text, Bild, Metadaten und Video
  • Stimmungsanalyse aus Social Media Feeds
  • Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
  • Social Media Dashboard zur Integration verschiedener sozialer Medien
  • Automatisierte Profilerstellung von Social Media Profilen
  • Eine Live-Demonstration der einzelnen Analyseverfahren wird mit dem Treeminer Tool durchgeführt

Big Data Analytik in der Bildverarbeitung und in Video-Feeds

  • Bildspeichertechniken in Big Data -- Speicherlösung für Daten im Petabyte-Bereich
  • LTFS (Linear Tape File System) und LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- mehrschichtige Speicherlösung für große Bilddaten
  • Grundlagen der Bildanalytik
  • Objekt-Erkennung
  • Segmentierung von Bildern
  • Bewegungsverfolgung
  • 3-D Bildrekonstruktion

Bio Metrik, DNA und Identifizierungsprogramme der nächsten Generation

  • Über Fingerabdrücke und Gesichtserkennung hinaus
  • Spracherkennung, Tastenanschlag (Analyse des Tippmusters eines Benutzers) und CODIS (kombiniertes DNA-Index-System)
  • Über den DNA-Abgleich hinaus: Verwendung der forensischen DNA-Phänotypisierung zur Konstruktion eines Gesichts aus DNA-Proben

Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Anzeige:

  • Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
  • Big Data Verwaltung
  • Fallstudie zu Big Data Dashboard: Tableau und Pentaho
  • Verwendung der Big Data-App für standortbezogene Dienste in Govt.
  • Tracking-System und Verwaltung

=====
Tag 05
=====
Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?

  • Definition des ROI (Return on Investment) für die Implementierung von Big Data
  • Fallstudien zur Einsparung von Analystenzeit bei der Datensammlung und -aufbereitung - Steigerung der Produktivität
  • Umsatzsteigerung durch geringere Kosten für Datenbanklizenzen
  • Umsatzsteigerung durch standortbezogene Dienste
  • Kosteneinsparungen durch Betrugsprävention
  • Ein integrierter Tabellenkalkulationsansatz für die Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen durch die Implementierung von Big Data.

Schritt-für-Schritt-Verfahren zum Ersetzen eines alten Datensystems durch ein Big Data-System

  • Big Data Migrationsfahrplan
  • Welche wichtigen Informationen werden vor der Entwicklung eines Big Data-Systems benötigt?
  • Welche verschiedenen Methoden gibt es zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
  • Wie kann man das Datenwachstum abschätzen?
  • Fallstudien

Überprüfung von Big Data-Anbietern und deren Produkten.

  • Accenture
  • APTEAN (ehemals CDC Software)
  • Cisco Systeme
  • Cloudera
  • Dell
  • EMC
  • GoodData Gesellschaft
  • Guavus
  • Hitachi Datensysteme
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (ehemals 10Gen)
  • MU Sigma
  • Netapp
  • Opera-Lösungen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytik
  • Salesforce
  • SAP
  • SAS Institut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automatisierung
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytik
  • Tidemark-Systeme
  • Treeminer
  • VMware (Teil von EMC)

Q/A-Sitzung

Voraussetzungen

  • Kenntnisse über Strafverfolgungsprozesse und Datensysteme
  • Grundkenntnisse in SQL/Oracle oder relationaler Datenbank
  • Grundkenntnisse in Statistik (auf Tabellenkalkulationsniveau)
  35 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

Erfahrungsberichte (4)

Kombinierte Kurse

Verwandte Kategorien