Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Jede Sitzung dauert 2 Stunden
Tag-1: Sitzung -1: Business Überblick über das Warum Big Data Business Intelligenz in Govt.
- Fallstudien von NIH, DoE
- Big Data Anpassungsrate in Govt. Agencies & und wie sie ihren zukünftigen Betrieb darauf ausrichten Big Data Predictive Analytics
- Breit angelegter Anwendungsbereich in DoD, NSA, IRS, USDA usw.
- Verknüpfung von Big Data mit Altdaten
- Grundlegendes Verständnis der Grundlagentechnologien der prädiktiven Analytik
- Data Integration & Dashboard-Visualisierung
- Betrugsmanagement
- Business Generierung von Regeln/Betrugserkennung
- Erkennung von Bedrohungen und Erstellung von Profilen
- Kosten-Nutzen-Analyse für die Big Data-Implementierung
Tag-1: Sitzung-2: Einführung in Big Data-1
- Hauptmerkmale von Big Data-Volumen, Vielfalt, Schnelligkeit und Wahrhaftigkeit. MPP-Architektur für Volumen.
- Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
- MPP Databases wie Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop-basierte Lösungen - keine Bedingungen an die Struktur der Datenmenge.
- Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
- Batch- geeignet für analytische/nicht interaktive
- Volumen: CEP-Streaming-Daten
- Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
- Weniger produktionstauglich - Storm/S4
- NoSQL Databases - (spaltenförmig und Key-Value): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank
Tag-1 : Sitzung -3 : Einführung in Big Data-2
NoSQL Lösungen
- KV-Speicher - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-Speicher - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-Speicher (Hierarchisch) - GT.m, Cache
- KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel-Speicher - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Breiter spaltenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Arten von Daten: Einführung in Data Cleaning Thema in Big Data
- RDBMS - statische Struktur/Schema, fördert nicht die agile, explorative Umgebung.
- NoSQL - halbstrukturiert, genügend Struktur zum Speichern von Daten ohne genaues Schema vor dem Speichern der Daten
- Fragen der Datenbereinigung
Tag-1 : Sitzung-4 : Big Data Einführung-3 : Hadoop
- Wann sollte man Hadoop wählen?
- STRUKTURIERT - Data-Warehouses/Datenbanken für Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
- SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
- Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
- Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
- Commodity-Hardware erforderlich, um einen Hadoop Cluster zu erstellen
Einführung in MapReduce /HDFS
- MapReduce - Verteilen der Datenverarbeitung auf mehrere Server
- HDFS - stellt Daten lokal für den Rechenprozess zur Verfügung (mit Redundanz)
- Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
- Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
- Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS
Tag-2: Sitzung-1: Big Data Aufbau eines Ökosystems Big Data ETL: Universum von Big Data Tools - welches sollte man wann verwenden?
- Hadoop vs. andere NoSQL Lösungen
- Für interaktiven, wahlfreien Zugriff auf Daten
- Hbase (spaltenorientierte Datenbank) auf Basis von Hadoop
- Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
- Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
- Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
- Flume - Streaming von Daten (z.B. Protokolldaten) in HDFS
Tag-2: Sitzung-2: Big Data Management System
- Bewegliche Teile, Rechenknoten starten/fallen aus :ZooKeeper - Für Konfiguration/Koordination/Benennungsdienste
- Komplexe Pipeline/Workflow: Oozie - Verwaltung von Arbeitsabläufen, Abhängigkeiten, Daisy Chain
- Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
- In der Cloud: Whirr
Tag-2: Sitzung-3: Prädiktive Analytik in Business Intelligence -1: Grundlegende Techniken und auf maschinellem Lernen basierende BI :
- Einführung in maschinelles Lernen
- Klassifizierungstechniken lernen
- Bayessche Vorhersage - Vorbereitung der Trainingsdatei
- Support-Vektor-Maschine
- KNN p-Tree Algebra & vertikales Mining
- Neuronales Netzwerk
- Big Data Problem der großen Variablen -Random Forest (RF)
- Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
- Automatisierung durch Soft10-M
- Textanalytisches Werkzeug - Treeminer
- Agile Lernen
- Agentenbasiertes Lernen
- Verteiltes Lernen
- Einführung in Open-Source-Tools für prädiktive Analysen: R, Rapidminer, Mahut
Tag-2: Sitzung-4 Prädiktive Analytik-Ökosystem-2: Gemeinsame prädiktive analytische Probleme in Govt.
- Einsicht-Analytik
- Analytische Visualisierung
- Strukturierte prädiktive Analytik
- Unstrukturierte prädiktive Analytik
- Bedrohungs-/Betrugsanalyse/Anbieterprofilierung
- Empfehlungsmaschine
- Erkennung von Mustern
- Erkennung von Regeln/Szenarien - Fehler, Betrug, Optimierung
- Entdeckung der Grundursache
- Sentiment-Analyse
- CRM-Analytik
- Netzwerk-Analytik
- Text-Analyse
- Technologiegestützte Überprüfung
- Betrugsanalytik
- Echtzeit-Analytik
Tag 3: Sitzung 1: Echtzeit- und Scalable-Analytik über Hadoop
- Warum gängige analytische Algorithmen in Hadoop/HDFS versagen
- Apache Hama- für Bulk-Synchronous Distributed Computing
- Apache SPARK- für Cluster-Computing für Echtzeit-Analytik
- CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
- KNN p-Algebra basierter Ansatz von Treeminer für reduzierte Hardwarebetriebskosten
Tag-3: Sitzung-2: Werkzeuge für eDiscovery und Forensik
- eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
- Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
- Live-Demo eines Tar-Produkts (vMiner), um zu verstehen, wie TAR für eine schnellere Entdeckung funktioniert
- Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
- NLP oder Natural Language Processing - verschiedene Techniken und Open-Source-Produkte
- eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung
Tag 3: Sitzung 3: Big Data BI für Cyber Security -Verständnis dergesamten 360-Grad-Sicht von der schnellen Datenerfassung bis zur Identifizierung von Bedrohungen
- Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, falsche Sicherheitskonfiguration, Host-Verteidigung
- Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analysen
- Prädiktiv vs. prädiktiv - Festgelegte Regeln vs. automatische Entdeckung von Bedrohungsregeln aus Metadaten
Tag 3: Sitzung 4: Big Data in USDA : Anwendung in der Landwirtschaft
- Einführung in das IoT (Internet der Dinge) für die Landwirtschaft - sensorgestützt Big Data und Kontrolle
- Einführung in die Satellitenbildtechnik und ihre Anwendung in der Landwirtschaft
- Integration von Sensor- und Bilddaten für Bodenfruchtbarkeit, Anbauempfehlungen und Prognosen
- Landwirtschaftliche Versicherungen und Big Data
- Vorhersage von Ernteverlusten
Tag 4: Sitzung 1: Betrugsprävention BI von Big Data in Govt-Betrugsanalytik:
- Grundlegende Klassifizierung der Betrugsanalyse - regelbasierte vs. prädiktive Analyse
- Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
- Lieferantenbetrug/Überfakturierung für Projekte
- Medicare- und Medicaid-Betrug - Betrugserkennungstechniken für die Bearbeitung von Anträgen
- Reisekostenerstattungsbetrug
- IRS-Erstattungsbetrug
- Fallstudien und Live-Demos werden überall dort gezeigt, wo Daten verfügbar sind.
Tag 4: Sitzung 2: Social Media Analytik - Sammlung und Analyse von Informationen
- Big Data ETL-API für die Extraktion von Social-Media-Daten
- Text, Bild, Metadaten und Video
- Stimmungsanalyse aus Social Media Feeds
- Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
- Social Media Dashboard zur Integration verschiedener sozialer Medien
- Automatisierte Profilerstellung von Social Media Profilen
- Eine Live-Demonstration der einzelnen Analyseverfahren wird mit dem Treeminer Tool durchgeführt.
Tag 4: Sitzung 3: Big Data Analytik in der Bildverarbeitung und Video-Feeds
- Bildspeichertechniken in Big Data- Speicherlösung für Daten im Petabyte-Bereich
- LTFS und LTO
- GPFS-LTFS (mehrschichtige Speicherlösung für große Bilddaten)
- Grundlagen der Bildanalytik
- Objekterkennung
- Segmentierung von Bildern
- Bewegungsverfolgung
- 3-D-Bildrekonstruktion
Tag 4: Sitzung 4: Big Data-Anwendungen im NIH:
- Aufkommende Bereiche der Bio-Informatik
- Meta-Genomik und Big Data-Mining-Probleme
- Big Data Prädiktive Analytik für Pharmakogenomik, Metabolomik und Proteomik
- Big Data im nachgelagerten Genomik-Prozess
- Anwendung der prädiktiven Analytik von Big Data in der öffentlichen Gesundheit
Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Darstellung:
- Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
- Big Data Verwaltung
- Fallstudie zu Big Data Dashboard: Tableau und Pentaho
- Verwendung der Big Data-App für standortbezogene Dienste in Govt.
- Tracking-System und Verwaltung
Tag 5: Sitzung 1: Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?
- Definition des ROI für die Big Data-Implementierung
- Fallstudien zur Einsparung von Analystenzeit für das Sammeln und Aufbereiten von Daten - Steigerung der Produktivität
- Fallstudien zu Umsatzsteigerungen durch Einsparungen bei den Kosten für lizenzierte Datenbanken
- Einnahmegewinn durch standortbezogene Dienste
- Einsparungen durch Betrugsprävention
- Ein integrierter Tabellenkalkulationsansatz zur Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen aus der Big Data Implementierung.
Tag 5: Sitzung-2: Schritt-für-Schritt-Verfahren zur Ersetzung eines alten Datensystems durch ein Big Data-System:
- Verstehen des praktischen Big Data-Migrationsfahrplans
- Welches sind die wichtigen Informationen, die vor der Planung einer Big Data-Implementierung benötigt werden?
- Welches sind die verschiedenen Methoden zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
- Wie man das Datenwachstum abschätzen kann
- Fallstudien
Tag 5: Sitzung 4: Überblick über die Big Data-Anbieter und ihre Produkte. Q/A-Sitzung:
- Accenture
- APTEAN (ehemals CDC Software)
- Cisco Systeme
- Cloudera
- Dell
- EMC
- GoodData Gesellschaft
- Guavus
- Hitachi Datensysteme
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (ehemals 10Gen)
- MU Sigma
- Netapp
- Opera-Lösungen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytik
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terracotta
- Soft10 Automatisierung
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytik
- Tidemark-Systeme
- Treeminer
- VMware (Teil von EMC)
Voraussetzungen
- Grundkenntnisse der Geschäftsabläufe und Datensysteme in der Regierung in ihrem Bereich
- Grundlegende Kenntnisse von SQL/Oracle oder relationalen Datenbanken
- Grundkenntnisse von Statistics (auf Tabellenkalkulationsniveau)
35 Stunden
Erfahrungsberichte (1)
Die Fähigkeit des Ausbilders, den Kurs auf die Anforderungen des Unternehmens abzustimmen, und nicht nur den Kurs um des Kurses willen anzubieten.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maschinelle Übersetzung