Schulungsübersicht

Jede Sitzung dauert 2 Stunden

Tag-1: Sitzung -1: Überblick über die Notwendigkeit von Big Data Business Intelligence in Regierungsbehörden

  • Fallstudien aus NIH, DoE
  • Adaption von Big Data in Regierungsbehörden und deren Ausrichtung der zukünftigen Operation auf Big Data Predictive Analytics
  • Weite Anwendungsbereiche im Verteidigungsministerium, NSA, IRS, USDA usw.
  • Integration von Big Data mit Legacy-Daten
  • Grundverständnis der enabling Technologien in Predictive Analytics
  • Datenintegration und Dashboard-Visualisierung
  • Betrugserkennung
  • Erstellung von Geschäftsregeln/Betrugserkennungen
  • Bedrohungserkennung und Profiling
  • Kosten-Nutzen-Analyse für die Implementierung von Big Data

Tag-1: Sitzung-2 : Einführung in Big Data-1

  • Hauptmerkmale von Big Data – Volumen, Vielfalt, Geschwindigkeit und Verlässlichkeit. MPP-Architektur für das Volumen.
  • Data Warehouses – statisches Schema, langsam wachsendes Datenset
  • MPP-Datenbanken wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
  • Hadoop-basierte Lösungen – keine Bedingungen an die Struktur des Datensatzes.
  • Typisches Muster: HDFS, MapReduce (Crunch), aus HDFS abrufen
  • Batch – geeignet für analytische/nicht-interaktive Aufgaben
  • Volumen: CEP-Streamingdaten
  • Typische Wahl – CEP Produkte (z.B. Infostreams, Apama, MarkLogic usw.)
  • Weniger reif – Storm/S4
  • NoSQL-Datenbanken – (spalten- und key-value-basiert): Bestens geeignet als analytisches Anhang zu Data Warehouse/Datenbank

Tag-1: Sitzung -3 : Einführung in Big Data-2

NoSQL-Lösungen

  • KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarchisch) – GT.m, Cache
  • KV Store (geordnet) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store – Gigaspaces, Coord, Apache River
  • Objektdatenbank – ZopeDB, DB40, Shoal
  • Dokumentenstore – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Datenbanken, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Vielfalt der Daten: Einführung in die Herausforderungen der Datenaufbereitung bei Big Data

  • RDBMS – statische Struktur/Schema, fördert nicht agilen, explorativen Umgang.
  • NoSQL – semi-strukturiert, genug Struktur, um Daten ohne exaktes Schema vor dem Speichern zu speichern
  • Herausforderungen der Datenaufbereitung

Tag-1: Sitzung-4 : Einführung in Big Data-3: Hadoop

  • Wann sollte man Hadoop auswählen?
  • STRUKTURIERT – Unternehmensdatenbanken können riesige Datenmengen speichern (zum Preis), aber sie erzwingen Struktur (nicht gut für aktive Exploration)
  • SEMI-STRUKTIERTES Datenset – schwer zu bewältigen mit traditionellen Lösungen (DW/DB)
  • Datenwarehausierung = enorme Anstrengung und statisch, selbst nach Implementierung
  • Für Vielfalt und Volumen von Daten, verarbeitet auf günstiger Hardware – HADOOP
  • Günstige H/W ist erforderlich, um einen Hadoop-Cluster zu erstellen

Einführung in MapReduce/HDFS

  • MapReduce – verteiltes Computing über mehrere Server
  • HDFS – macht Daten lokal für den Rechenprozess verfügbar (mit Redundanz)
  • Daten – können unstrukturiert/schema-los sein (im Gegensatz zu RDBMS)
  • Entwicklerverantwortung, um die Daten zu interpretieren
  • Programmierung von MapReduce = Arbeit mit Java (Vorteile/Nachteile), manuelles Laden von Daten in HDFS

Tag-2: Sitzung-1: Big Data Ökosystem – Aufbau des Big Data ETL: Überblick über die Welt der Big Data Tools – welche und wann zu verwenden?

  • Hadoop vs. andere NoSQL-Lösungen
  • Für interaktiven, zufälligen Datenzugriff
  • Hbase (spaltenorientierte Datenbank) auf Hadoop
  • Zufälliger Datenzugriff, aber Einschränkungen (max. 1 PB)
  • Nicht gut für Ad-Hoc-Analysen, gut für Logging, Zählen, Zeitreihen
  • Sqoop – Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugriff)
  • Flume – Streamt Daten (z.B. Logdaten) in HDFS

Tag-2: Sitzung-2: Big Data Management System

  • Bewegte Teile, Compute-Nodes starten/scheitern: ZooKeeper – für Konfiguration/Abstimmung/Namensdienste
  • Komplexe Pipelines/Workflows: Oozie – Workflow-Management, Abhängigkeiten, Daisychain
  • Bereitstellung, Konfiguration, Cluster-Verwaltung, Upgrade etc. (Sys Admin): Ambari
  • In der Cloud: Whirr

Tag-2: Sitzung-3: Predictive Analytics in Business Intelligence –1: Grundlegende Techniken und maschinelles Lernen basierend auf BI:

  • Einführung ins maschinelle Lernen
  • Lernmethoden für Klassifikationstechniken
  • Bayesianische Vorhersage – Vorbereitung der Trainingsdatei
  • Support Vector Machine (SVM)
  • KNN p-Baum Algebra & vertikales Mining
  • Neuronale Netze
  • Big Data Large Variable Problem – Random Forest (RF)
  • Big Data Automatisierungsproblem – Multi-Modell Ensemble RF
  • Automatisierung durch Soft10-M
  • Textanalysetool – Treeminer
  • Agiles Lernen
  • Agentenbasierendes Lernen
  • Verteiltes Lernen
  • Einführung in Open-Source-Tools für Predictive Analytics: R, Rapidminer, Mahout

Tag-2: Sitzung-4: Predictive Analytics Ökosystem –2: Gemeinsame predictive analytic-Probleme in Regierungsbehörden

  • Insightsanalyse
  • Visualisierungsanalyse
  • Strukturierte Predictive Analytics
  • Unstrukturierte Predictive Analytics
  • Bedrohung/Fraud/Vendor-Profilierung
  • Empfehlungssysteme
  • Mustererkennung
  • Regel/Scenario-Entdeckung – Fehler, Betrug, Optimierung
  • Ursachenanalyse
  • Sentimentanalyse
  • CRM-Analyse
  • Netzwerkanalyse
  • Textanalyse
  • Technologiegestützte Recherche
  • Betrugsanalyse
  • Echtzeitanalyse

Tag-3: Sitzung-1: Echtzeit- und skalierbare Analyse über Hadoop

  • Warum übliche analytische Algorithmen in Hadoop/HDFS versagen
  • Apache Hama – für Bulk-Synchronous verteiltes Computing
  • Apache SPARK – für Clusterechnung zur Echtzeitanalyse
  • CMU Graphics Lab2 – graph-basierte asynchrone Ansatz zum verteilten Computing
  • KNN p-Algebra basierter Ansatz von Treeminer zur Reduzierung der Hardwarekosten

Tag-3: Sitzung-2: Tools für eDiscovery und Forensik

  • eDiscovery über Big Data vs. Legacy-Daten – Vergleich von Kosten und Leistung
  • Predictive Coding und technologiegestützte Recherche (TAR)
  • Live-Demo eines TAR-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Entdeckung funktioniert
  • Schnellere Indizierung durch HDFS – Geschwindigkeit der Daten
  • NLP oder Natural Language Processing – verschiedene Techniken und Open-Source-Produkte
  • eDiscovery in fremden Sprachen – Technologie zur Verarbeitung von fremdsprachigen Daten

Tag-3: Sitzung-3: Big Data BI für Cyber Security – Grundlegendes zur Datensammlung und Bedrohungserkennung in 360-Grad-Ansicht

  • Grundlagen der Sicherheitsanalyse verstehen – Angriffsfläche, fehlerhafte Konfigurationen, Host-Sicherheiten
  • Netzwerk-Infrastruktur/Large Data Pipe/Response ETL für die Echtzeitanalyse
  • Vorgaben-basiert vs. automatisch – feste regelbasierte vs. automatische Erkennung von Bedrohungsvorschriften aus Metadaten

Tag-3: Sitzung-4: Big Data bei USDA – Anwendung in der Landwirtschaft

  • Einführung in IoT (Internet of Things) für die Landwirtschaft – sensorbasiertes Big Data und Steuerung
  • Einführung in Satellitenbildgebung und ihre Anwendung in der Landwirtschaft
  • Integration von Sensor- und Bildgebietsdaten für die Fruchtbarkeit des Bodens, Anbauempfehlungen und Prognosen
  • Agrarversicherung und Big Data
  • Ernteausfallprognose

Tag-4: Sitzung-1: Betrugserkennung BI aus Big Data in Regierungsbehörden – Betrugsanalyse:

  • Grundlegende Klassifizierung von Betrugsanalysen – regelbasiert vs. vorhersagend
  • Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
  • Betrug/Überverrechnung durch Lieferanten für Projekte
  • Medicare und Medicaid-Betrug – Betrugsidentifizierungstechniken für die Verarbeitung von Anträgen
  • Reisekostenbetrügereien
  • IRS-Rückerstattungs betrügereien
  • Fallstudien und Live-Demos werden gegeben, wo Daten verfügbar sind.

Tag-4: Sitzung-2: Social Media Analyse – Informationsbeschaffung und -analyse

  • Big Data ETL-API zur Extraktion von Social-Media-Daten
  • Text, Bild, Metadaten und Video
  • Sentimentanalyse aus Social-Media-Feeds
  • Kontextuelle und nicht-kontextuelle Filterung von Social-Media-Feeds
  • Social Media Dashboard zur Integration verschiedener Social-Media-Kanäle
  • Automatisierte Profilierung von Social-Media-Profilen
  • Live-Demo jeder Analyse wird durch Treeminer-Tool gegeben.

Tag-4: Sitzung-3: Big Data Analyse in Bildverarbeitung und Videofeeds

  • Speichertechniken für Bilder in Big Data – Speicherlösungen für Daten, die Petabytes übersteigen
  • LTFS und LTO
  • GPFS-LTFS (schichtige Speicherlösung für große Bildgebietsdaten)
  • Grundlagen der Bildanalyse
  • Objekterkennung
  • Bildersegmentierung
  • Bewegungserkennung
  • 3D-Bildrekonstruktion

Tag-4: Sitzung-4: Big Data-Anwendungen im NIH:

  • Entstehende Bereiche der Bioinformatik
  • Meta-Genomik und Herausforderungen bei der Big Data Mining
  • Big Data Predictive Analytics für Pharmacogenomics, Metabolomics und Proteomics
  • Big Data in downstream Genomikprozessen
  • Anwendung von Big Data Predictive Analytics im öffentlichen Gesundheitswesen

Big Data Dashboard für schnellen Zugang zu verschiedenen Daten und Darstellung:

  • Integration der vorhandenen Anwendungsplattform mit dem Big Data-Dashboard
  • Big Data-Management
  • Fallstudie des Big Data-Dashboards: Tableau und Pentaho
  • Verwendung von Big Data-Apps zur Bereitstellung lagebasierter Dienste in Regierungsbehörden
  • Tracking-System und -Management

Tag-5: Sitzung-1: Wie man die Implementierung von Big Data BI innerhalb einer Organisation rechtfertigen kann:

  • Definition der ROI für die Implementierung von Big Data
  • Fallstudien zur Einsparung von Analystenzeit bei der Erfassung und Vorbereitung von Daten – Erhöhung der Produktivität
  • Fallstudien zur Einnahmesteigerung durch die Reduzierung der Lizenzdatenkosten
  • Einnahmesteigerung durch lagebasierte Dienste
  • Einsparungen durch Betrugserkennung
  • Integrierte Tabellenansatz zur Berechnung von ungefähren Kosten vs. Einnahmesteigerung/Einsparungen durch die Implementierung von Big Data.

Tag-5: Sitzung-2: Schritt-für-Schritt-Vorgehensweise zur Ersetzung des Legacy-Datensystems durch ein Big Data System:

  • Praktische Big Data Migrationsroadmap verstehen
  • Welche wichtigen Informationen benötigt werden, bevor eine Big Data-Implementierung architektiert wird
  • Verschiedene Wege zur Berechnung von Volumen, Geschwindigkeit, Vielfalt und Verlässlichkeit der Daten
  • Wie man die Datenausbreitung prognostizieren kann
  • Fallstudien

Tag-5: Sitzung-4: Überblick über Big Data-Anbieter und Bewertung ihrer Produkte. Q&A-Sitzung:

  • Accenture
  • APTEAN (früher CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (früher 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Teil von EMC)

Voraussetzungen

1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)

 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien