Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Jede Sitzung dauert 2 Stunden
Tag-1: Sitzung -1: Überblick über die Notwendigkeit von Big Data Business Intelligence in Regierungsbehörden
- Fallstudien aus NIH, DoE
- Adaption von Big Data in Regierungsbehörden und deren Ausrichtung der zukünftigen Operation auf Big Data Predictive Analytics
- Weite Anwendungsbereiche im Verteidigungsministerium, NSA, IRS, USDA usw.
- Integration von Big Data mit Legacy-Daten
- Grundverständnis der enabling Technologien in Predictive Analytics
- Datenintegration und Dashboard-Visualisierung
- Betrugserkennung
- Erstellung von Geschäftsregeln/Betrugserkennungen
- Bedrohungserkennung und Profiling
- Kosten-Nutzen-Analyse für die Implementierung von Big Data
Tag-1: Sitzung-2 : Einführung in Big Data-1
- Hauptmerkmale von Big Data – Volumen, Vielfalt, Geschwindigkeit und Verlässlichkeit. MPP-Architektur für das Volumen.
- Data Warehouses – statisches Schema, langsam wachsendes Datenset
- MPP-Datenbanken wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop-basierte Lösungen – keine Bedingungen an die Struktur des Datensatzes.
- Typisches Muster: HDFS, MapReduce (Crunch), aus HDFS abrufen
- Batch – geeignet für analytische/nicht-interaktive Aufgaben
- Volumen: CEP-Streamingdaten
- Typische Wahl – CEP Produkte (z.B. Infostreams, Apama, MarkLogic usw.)
- Weniger reif – Storm/S4
- NoSQL-Datenbanken – (spalten- und key-value-basiert): Bestens geeignet als analytisches Anhang zu Data Warehouse/Datenbank
Tag-1: Sitzung -3 : Einführung in Big Data-2
NoSQL-Lösungen
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchisch) – GT.m, Cache
- KV Store (geordnet) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store – Gigaspaces, Coord, Apache River
- Objektdatenbank – ZopeDB, DB40, Shoal
- Dokumentenstore – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Datenbanken, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Vielfalt der Daten: Einführung in die Herausforderungen der Datenaufbereitung bei Big Data
- RDBMS – statische Struktur/Schema, fördert nicht agilen, explorativen Umgang.
- NoSQL – semi-strukturiert, genug Struktur, um Daten ohne exaktes Schema vor dem Speichern zu speichern
- Herausforderungen der Datenaufbereitung
Tag-1: Sitzung-4 : Einführung in Big Data-3: Hadoop
- Wann sollte man Hadoop auswählen?
- STRUKTURIERT – Unternehmensdatenbanken können riesige Datenmengen speichern (zum Preis), aber sie erzwingen Struktur (nicht gut für aktive Exploration)
- SEMI-STRUKTIERTES Datenset – schwer zu bewältigen mit traditionellen Lösungen (DW/DB)
- Datenwarehausierung = enorme Anstrengung und statisch, selbst nach Implementierung
- Für Vielfalt und Volumen von Daten, verarbeitet auf günstiger Hardware – HADOOP
- Günstige H/W ist erforderlich, um einen Hadoop-Cluster zu erstellen
Einführung in MapReduce/HDFS
- MapReduce – verteiltes Computing über mehrere Server
- HDFS – macht Daten lokal für den Rechenprozess verfügbar (mit Redundanz)
- Daten – können unstrukturiert/schema-los sein (im Gegensatz zu RDBMS)
- Entwicklerverantwortung, um die Daten zu interpretieren
- Programmierung von MapReduce = Arbeit mit Java (Vorteile/Nachteile), manuelles Laden von Daten in HDFS
Tag-2: Sitzung-1: Big Data Ökosystem – Aufbau des Big Data ETL: Überblick über die Welt der Big Data Tools – welche und wann zu verwenden?
- Hadoop vs. andere NoSQL-Lösungen
- Für interaktiven, zufälligen Datenzugriff
- Hbase (spaltenorientierte Datenbank) auf Hadoop
- Zufälliger Datenzugriff, aber Einschränkungen (max. 1 PB)
- Nicht gut für Ad-Hoc-Analysen, gut für Logging, Zählen, Zeitreihen
- Sqoop – Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugriff)
- Flume – Streamt Daten (z.B. Logdaten) in HDFS
Tag-2: Sitzung-2: Big Data Management System
- Bewegte Teile, Compute-Nodes starten/scheitern: ZooKeeper – für Konfiguration/Abstimmung/Namensdienste
- Komplexe Pipelines/Workflows: Oozie – Workflow-Management, Abhängigkeiten, Daisychain
- Bereitstellung, Konfiguration, Cluster-Verwaltung, Upgrade etc. (Sys Admin): Ambari
- In der Cloud: Whirr
Tag-2: Sitzung-3: Predictive Analytics in Business Intelligence –1: Grundlegende Techniken und maschinelles Lernen basierend auf BI:
- Einführung ins maschinelle Lernen
- Lernmethoden für Klassifikationstechniken
- Bayesianische Vorhersage – Vorbereitung der Trainingsdatei
- Support Vector Machine (SVM)
- KNN p-Baum Algebra & vertikales Mining
- Neuronale Netze
- Big Data Large Variable Problem – Random Forest (RF)
- Big Data Automatisierungsproblem – Multi-Modell Ensemble RF
- Automatisierung durch Soft10-M
- Textanalysetool – Treeminer
- Agiles Lernen
- Agentenbasierendes Lernen
- Verteiltes Lernen
- Einführung in Open-Source-Tools für Predictive Analytics: R, Rapidminer, Mahout
Tag-2: Sitzung-4: Predictive Analytics Ökosystem –2: Gemeinsame predictive analytic-Probleme in Regierungsbehörden
- Insightsanalyse
- Visualisierungsanalyse
- Strukturierte Predictive Analytics
- Unstrukturierte Predictive Analytics
- Bedrohung/Fraud/Vendor-Profilierung
- Empfehlungssysteme
- Mustererkennung
- Regel/Scenario-Entdeckung – Fehler, Betrug, Optimierung
- Ursachenanalyse
- Sentimentanalyse
- CRM-Analyse
- Netzwerkanalyse
- Textanalyse
- Technologiegestützte Recherche
- Betrugsanalyse
- Echtzeitanalyse
Tag-3: Sitzung-1: Echtzeit- und skalierbare Analyse über Hadoop
- Warum übliche analytische Algorithmen in Hadoop/HDFS versagen
- Apache Hama – für Bulk-Synchronous verteiltes Computing
- Apache SPARK – für Clusterechnung zur Echtzeitanalyse
- CMU Graphics Lab2 – graph-basierte asynchrone Ansatz zum verteilten Computing
- KNN p-Algebra basierter Ansatz von Treeminer zur Reduzierung der Hardwarekosten
Tag-3: Sitzung-2: Tools für eDiscovery und Forensik
- eDiscovery über Big Data vs. Legacy-Daten – Vergleich von Kosten und Leistung
- Predictive Coding und technologiegestützte Recherche (TAR)
- Live-Demo eines TAR-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Entdeckung funktioniert
- Schnellere Indizierung durch HDFS – Geschwindigkeit der Daten
- NLP oder Natural Language Processing – verschiedene Techniken und Open-Source-Produkte
- eDiscovery in fremden Sprachen – Technologie zur Verarbeitung von fremdsprachigen Daten
Tag-3: Sitzung-3: Big Data BI für Cyber Security – Grundlegendes zur Datensammlung und Bedrohungserkennung in 360-Grad-Ansicht
- Grundlagen der Sicherheitsanalyse verstehen – Angriffsfläche, fehlerhafte Konfigurationen, Host-Sicherheiten
- Netzwerk-Infrastruktur/Large Data Pipe/Response ETL für die Echtzeitanalyse
- Vorgaben-basiert vs. automatisch – feste regelbasierte vs. automatische Erkennung von Bedrohungsvorschriften aus Metadaten
Tag-3: Sitzung-4: Big Data bei USDA – Anwendung in der Landwirtschaft
- Einführung in IoT (Internet of Things) für die Landwirtschaft – sensorbasiertes Big Data und Steuerung
- Einführung in Satellitenbildgebung und ihre Anwendung in der Landwirtschaft
- Integration von Sensor- und Bildgebietsdaten für die Fruchtbarkeit des Bodens, Anbauempfehlungen und Prognosen
- Agrarversicherung und Big Data
- Ernteausfallprognose
Tag-4: Sitzung-1: Betrugserkennung BI aus Big Data in Regierungsbehörden – Betrugsanalyse:
- Grundlegende Klassifizierung von Betrugsanalysen – regelbasiert vs. vorhersagend
- Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
- Betrug/Überverrechnung durch Lieferanten für Projekte
- Medicare und Medicaid-Betrug – Betrugsidentifizierungstechniken für die Verarbeitung von Anträgen
- Reisekostenbetrügereien
- IRS-Rückerstattungs betrügereien
- Fallstudien und Live-Demos werden gegeben, wo Daten verfügbar sind.
Tag-4: Sitzung-2: Social Media Analyse – Informationsbeschaffung und -analyse
- Big Data ETL-API zur Extraktion von Social-Media-Daten
- Text, Bild, Metadaten und Video
- Sentimentanalyse aus Social-Media-Feeds
- Kontextuelle und nicht-kontextuelle Filterung von Social-Media-Feeds
- Social Media Dashboard zur Integration verschiedener Social-Media-Kanäle
- Automatisierte Profilierung von Social-Media-Profilen
- Live-Demo jeder Analyse wird durch Treeminer-Tool gegeben.
Tag-4: Sitzung-3: Big Data Analyse in Bildverarbeitung und Videofeeds
- Speichertechniken für Bilder in Big Data – Speicherlösungen für Daten, die Petabytes übersteigen
- LTFS und LTO
- GPFS-LTFS (schichtige Speicherlösung für große Bildgebietsdaten)
- Grundlagen der Bildanalyse
- Objekterkennung
- Bildersegmentierung
- Bewegungserkennung
- 3D-Bildrekonstruktion
Tag-4: Sitzung-4: Big Data-Anwendungen im NIH:
- Entstehende Bereiche der Bioinformatik
- Meta-Genomik und Herausforderungen bei der Big Data Mining
- Big Data Predictive Analytics für Pharmacogenomics, Metabolomics und Proteomics
- Big Data in downstream Genomikprozessen
- Anwendung von Big Data Predictive Analytics im öffentlichen Gesundheitswesen
Big Data Dashboard für schnellen Zugang zu verschiedenen Daten und Darstellung:
- Integration der vorhandenen Anwendungsplattform mit dem Big Data-Dashboard
- Big Data-Management
- Fallstudie des Big Data-Dashboards: Tableau und Pentaho
- Verwendung von Big Data-Apps zur Bereitstellung lagebasierter Dienste in Regierungsbehörden
- Tracking-System und -Management
Tag-5: Sitzung-1: Wie man die Implementierung von Big Data BI innerhalb einer Organisation rechtfertigen kann:
- Definition der ROI für die Implementierung von Big Data
- Fallstudien zur Einsparung von Analystenzeit bei der Erfassung und Vorbereitung von Daten – Erhöhung der Produktivität
- Fallstudien zur Einnahmesteigerung durch die Reduzierung der Lizenzdatenkosten
- Einnahmesteigerung durch lagebasierte Dienste
- Einsparungen durch Betrugserkennung
- Integrierte Tabellenansatz zur Berechnung von ungefähren Kosten vs. Einnahmesteigerung/Einsparungen durch die Implementierung von Big Data.
Tag-5: Sitzung-2: Schritt-für-Schritt-Vorgehensweise zur Ersetzung des Legacy-Datensystems durch ein Big Data System:
- Praktische Big Data Migrationsroadmap verstehen
- Welche wichtigen Informationen benötigt werden, bevor eine Big Data-Implementierung architektiert wird
- Verschiedene Wege zur Berechnung von Volumen, Geschwindigkeit, Vielfalt und Verlässlichkeit der Daten
- Wie man die Datenausbreitung prognostizieren kann
- Fallstudien
Tag-5: Sitzung-4: Überblick über Big Data-Anbieter und Bewertung ihrer Produkte. Q&A-Sitzung:
- Accenture
- APTEAN (früher CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (früher 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Teil von EMC)
Voraussetzungen
1. Should have basic knowledge of business operation and data systems in Govt. in their domain 2. Must have basic understanding of SQL/Oracle or relational database 3. Basic understanding of Statistics ( in Spreadsheet level)
35 Stunden
Erfahrungsberichte (1)
Die Fähigkeit des Ausbilders, den Kurs auf die Anforderungen des Unternehmens abzustimmen, und nicht nur den Kurs um des Kurses willen anzubieten.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maschinelle Übersetzung