Data-Streaming und Echtzeit-Datenverarbeitung Schulung
Übersicht des Kurses
Dieser Kurs bietet eine praxisorientierte und strukturierte Einführung in den Aufbau von Echtzeit-Daten-Streaming-Systemen. Er vermittelt die zentralen Konzepte, Architektur patterns und branchenüblichen Tools zur Verarbeitung kontinuierlicher Daten in großem Maßstab. Die Teilnehmer lernen, wie man Streaming-Pipelines mit modernen Frameworks entwirft, implementiert und optimiert. Der Kurs führt von den Grundlagen zu praktischen Anwendungen und ermöglicht es den Lernenden, sicher produktionsreale Echtzeitsolutions aufzubauen.
Ablauf des Trainings
• Dozentengeleitete Sitzungen mit geführten Erklärungen
• Konzeptdurchlauf mit Praxisbeispielen
• Praktische Demonstrationen und Codierungsaufgaben
• Progressive Laborübungen, die auf die täglichen Themen abgestimmt sind
• Interaktive Diskussionen und Fragerunden
Kursziele
• Verständnis von Echtzeit-Daten-Streaming-Konzepten und Systemarchitekturen
• Unterscheidung zwischen Batch- und Streaming-Datenverarbeitungsmodellen
• Entwurf skalierbarer und fehlertoleranter Streaming-Pipelines
• Arbeit mit verteilten Streaming-Tools und Frameworks
• Anwendung von Event-Time-Verarbeitung, Windowing und zustandsbehafteten Operationen
Aufbau und Optimierung von Echtzeit-Datenlösungen für Geschäftsanwendungen
Schulungsübersicht
Kursinhalt Tag 1
• Einführung in die Konzepte des Daten-Streamings
• Grundlagen der Batch- vs. Echtzeit-Verarbeitung
• Grundlagen der ereignisgesteuerten Architektur
• Häufige Anwendungsfälle in der Industrie
• Überblick über das Streaming-Ökosystem
Tag 2
• Design Patterns für Streaming-Architekturen
• Grundlagen verteilter Nachrichtensysteme
• Produzenten und Konsumenten
• Themen, Partitionen und Datenfluss
• Strategien der Datenaufnahme
Tag 3
• Stream Processing Konzepte und Frameworks
• Event-Time vs. Processing Time
• Windowing-Techniken und Anwendungsfälle
• Zustandsbehaftetes Stream Processing
• Grundlagen zu Fehlertoleranz und Checkpointing
Tag 4
• Datenverarbeitung in Streaming-Pipelines
• ETL und ELT in Echtzeitsystemen
• Schema-Management und Evolution
• Stream-Joins und Anreicherung
• Einführung in cloudbasierte Streaming-Dienste
Tag 5
• Überwachung und Observabilität in Streaming-Systemen
• Grundlagen der Sicherheit und Zugriffskontrolle
• Leistungsoptimierung und Feinabstimmung
• Gesamtüberblick über den Pipeline-Entwurf
• Praxisfälle wie Betrugsprävention und IoT-Verarbeitung
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Data-Streaming und Echtzeit-Datenverarbeitung Schulung - Buchung
Data-Streaming und Echtzeit-Datenverarbeitung Schulung - Anfrage
Data-Streaming und Echtzeit-Datenverarbeitung - Beratungsanfrage
Erfahrungsberichte (1)
Praktische Übungen. Die Kursdauer sollte eigentlich fünf Tage betragen, aber die drei Tage halfen dabei, viele Fragen zu klären, die ich bei der Arbeit mit NiFi bereits hatte.
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Administratorschulung für Apache Hadoop
35 StundenZielgruppe:
Der Kurs richtet sich an IT-Spezialisten, die nach einer Lösung suchen, um große Datensätze in einer verteilten Systemumgebung zu speichern und zu verarbeiten.
GoVoraussetzungen:
Tiefes Wissen über die Verwaltung von Hadoop-Clustern.
Big Data-Analytik mit Google Colab und Apache Spark
14 StundenDieser von einem Trainer durchgeführte Live-Kurs in Deutschland (online oder vor Ort) richtet sich an mittelcalibrige Datenwissenschaftler und Ingenieure, die Google Colab und Apache Spark für das Verarbeiten und Analysieren von Big Data einsetzen möchten.
Am Ende des Trainings werden die Teilnehmer in der Lage sein:
- Eine Big-Data-Umgebung mit Google Colab und Spark einzurichten.
- Große Datensätze effizient mit Apache Spark zu verarbeiten und zu analysieren.
- Big Data in einer kollaborativen Umgebung visualisieren.
- Apache Spark mit cloudbasierten Tools zu integrieren.
Big Data Analytics in der Gesundheitsversorgung
21 StundenDie Big Data-Analytics beinhaltet den Prozess, große Mengen an vielfältigen Datensätzen zu untersuchen, um Zusammenhänge, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Der Gesundheitssektor verfügt über riesige Mengen komplexer, heterogener medizinischer und klinischer Daten. Die Anwendung von Big Data-Analytics auf gesundheitliche Daten bietet enormes Potenzial zur Ableitung von Erkenntnissen für die Verbesserung der Gesundheitsversorgung. Allerdings stellen die Größenordnungen dieser Datensätze große Herausforderungen bei der Analyse und den praktischen Anwendungen in einem klinischen Umfeld dar.
In diesem von einem Dozenten geleiteten, Live-Training (Remote) werden die Teilnehmer lernen, wie man Big Data-Analytics in der Gesundheitsversorgung durchführt, indem sie eine Reihe praktischer Übungen durchlaufen.
Bis zum Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Hadoop MapReduce und Spark zu installieren und zu konfigurieren
- Die Eigenschaften medizinischer Daten zu verstehen
- Große Datentechniken zur Bearbeitung von medizinischen Daten anzuwenden
- Große Datensysteme und Algorithmen im Kontext von Gesundheitsanwendungen zu studieren
Zielgruppe
- Entwickler
- Data Scientists
Kursformat
- Vorlesungsteil, Diskussionsteil, Übungen und praktische Anwendung.
Hinweis
- Um ein angepasstes Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um eine Terminvereinbarung zu treffen.
Hadoop für Administratoren
21 StundenApache Hadoop ist das beliebteste Framework für die Verarbeitung von Big Data auf Serverclusters. In diesem drei- (optional vier-) Tageskurs lernen Teilnehmer über den Geschäftsvorteile und Einsatzmöglichkeiten von Hadoop und seinem Ökosystem, wie man einen Cluster bereitstellt und ausbaut, wie man Hadoop installiert, betreibt, überwacht, Fehler behebt und optimiert. Sie werden auch die Massendaten-Import in Clusters praktizieren, verschiedene Verteilungen von Hadoop kennen lernen und die Installation und Verwaltung von Tools des Hadoop-Ökosystems üben. Der Kurs endet mit einer Diskussion über das Schützen des Clusters mit Kerberos.
“…Die Materialien waren sehr gut vorbereitet und detailliert abgedeckt. Das Labor war sehr hilfreich und gut organisiert”— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Zielgruppe
Hadoop-Administratoren
Format
Vorlesungen und praktische Labore, ungefährer Teilungsgrad 60% Vorlesungen, 40% Labore.
Hadoop für Entwickler (4 Tage)
28 StundenApache Hadoop ist der populärste Framework zur Verarbeitung von Big Data auf Clustern von Servern. Dieses Kurs wird einen Entwickler in verschiedene Komponenten des Hadoop-Ökosystems (HDFS, MapReduce, Pig, Hive und HBase) einführen.
Advanced Hadoop für Entwickler
21 StundenApache Hadoop ist eines der beliebtesten Frameworks zur Verarbeitung von Big Data auf Clustern von Servern. Dieses Kurs geht tief in die Datenverwaltung in HDFS, fortgeschrittene Pig, Hive und HBase ein. Diese fortgeschrittenen Programmiermethoden werden erfahrenen Hadoop-Entwicklern zugutekommen.
Zielgruppe: Entwickler
Dauer: drei Tage
Format: Vorlesungen (50%) und praktische Übungen (50%).
Hadoop-Verwaltung auf MapR
28 StundenZielgruppe:
Dieser Kurs soll Big Data/Hadoop-Technologie entmystifizieren und zeigen, dass sie nicht schwer zu verstehen ist.
Hadoop und Spark für Administratoren
35 StundenDieses von einem Dozenten geleitete Live-Training in Deutschland (online oder vor Ort) richtet sich an Systemadministratoren, die lernen möchten, wie sie Hadoop-Cluster in ihrer Organisation einrichten, bereitstellen und verwalten.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Apache Hadoop zu installieren und zu konfigurieren.
- Die vier Hauptkomponenten des Hadoop-Ökosystems zu verstehen: HDFS, MapReduce, YARN und Hadoop Common.
- Hadoop Distributed File System (HDFS) zum Skalieren eines Clusters auf Hunderte oder Tausende von Knoten zu verwenden.
- HDFS als Speicher-Engine für lokale Spark-Bereitstellungen einzurichten.
- Spark zum Zugriff auf alternative Speicherlösungen wie Amazon S3 und NoSQL-Datenbanksysteme wie Redis, Elasticsearch, Couchbase, Aerospike etc. einzurichten.
- Administrative Aufgaben wie Bereitstellung, Verwaltung, Überwachung und Sicherung eines Apache Hadoop-Clusters durchzuführen.
HBase für Entwickler
21 StundenDieser Kurs stellt HBase vor – eine NoSQL-Datenbank auf Basis von Hadoop. Der Kurs richtet sich an Entwickler, die HBase zur Entwicklung von Anwendungen verwenden werden, sowie an Administratoren, die HBase-Clusters verwalten werden.
Wir führen die Entwickler durch die Architektur und Datenmodellierung von HBase sowie die Anwendungsentwicklung auf HBase. Der Kurs behandelt auch die Verwendung von MapReduce mit HBase und einige Administrations-Themen im Zusammenhang mit der Leistungsoptimierung. Der Kurs ist sehr praxisorientiert und enthält viele Laborübungen.
Dauer : 3 Tage
Zielgruppe : Entwickler & Administratoren
Apache NiFi für Administratorinnen und Administratorinnen
21 StundenApache NiFi ist eine Open-Source-Plattform für flussbasierte Datenintegration und Ereignisverarbeitung. Sie ermöglicht die automatisierte, in Echtzeit stattfindende Datenrouting-, Transformations- und Systemvermittlungsfunktionen zwischen unterschiedlichen Systemen mit einer webbasierten Benutzeroberfläche und feingranularen Kontrollmöglichkeiten.
Dieses vom Trainer geleitete, live Training (vor Ort oder remote) richtet sich an fortgeschrittene Administratoren und Ingenieure, die NiFi-Datenflüsse in Produktionsumgebungen bereitstellen, verwalten, schützen und optimieren möchten.
Zum Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Apache NiFi-Clusters zu installieren, zu konfigurieren und zuwartenden.
- Datenflüsse von verschiedenen Quellen und Senken zu planen und zu verwalten.
- Flussautomatisierung, Routing und Transformationslogik umzusetzen.
- Die Leistung zu optimieren, Operationen zu überwachen und Probleme zu beheben.
Kursformat
- Interaktive Vorlesung mit Diskussion realer Architekturen.
- Praktische Übungen: Erstellen, Bereitstellen und Verwalten von Flüssen.
- Szenario-basierte Aufgaben in einer Live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs kontaktieren Sie uns, um einen Termin zu vereinbaren.
Apache NiFi für Entwickler
7 StundenIn dieser Live-Schulung unter Anleitung in Deutschland lernen die Teilnehmer die Grundlagen der ablaufbasierten Programmierung, während sie eine Reihe von Demo-Erweiterungen, Komponenten und Prozessoren mit Apache NiFi entwickeln.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Die Architektur von NiFi und Datenflusskonzepte zu verstehen.
- Erweiterungen mit NiFi und APIs von Drittanbietern zu entwickeln.
- Ihren eigenen Apache-NiFi-Prozessor zu entwickeln.
- Echtzeitdaten aus unterschiedlichen und ungewöhnlichen Dateiformaten und Datenquellen einlesen und verarbeiten.
PySpark und Machine Learning
21 StundenDiese Schulung bietet eine praxisorientierte Einführung in den Aufbau skalierbarer Datenverarbeitungs- und Machine-Learning-Workflows mit PySpark. Die Teilnehmenden lernen, wie Apache Spark in modernen Big-Data-Ökosystemen funktioniert und wie große Datensätze mithilfe verteilter Rechenprinzipien effizient verarbeitet werden können.
Python und Spark für Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Deutschland lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Python, Spark und Hadoop für Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.
Stratio: Rocket- und Intelligence-Module mit PySpark
14 StundenStratio ist eine datenzentrierte Plattform, die Big Data, KI und Governance in einer einzigen Lösung integriert. Die Rocket- und Intelligence-Module ermöglichen eine schnelle Datenauswertung, -transformation und fortgeschrittene Analysen in Unternehmensumgebungen.
Diese von einem Dozenten geleitete Live-Schulung (online oder vor Ort) richtet sich an datenzentrierte Fachkräfte mittlerer Qualifikation, die lernen möchten, die Rocket- und Intelligence-Module in Stratio effektiv mit PySpark zu nutzen. Der Fokus liegt auf Schleifenstrukturen, benutzerdefinierten Funktionen und fortgeschrittenen Datenlogiken.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Sich innerhalb der Stratio-Plattform mit den Rocket- und Intelligence-Modulen zu orientieren und darin zu arbeiten.
- PySpark im Kontext von Datenaufnahme, -transformation und -analyse anzuwenden.
- Schleifen und bedingte Logiken zur Steuerung von Datenworkflows und Feature-Engineering-Aufgaben zu verwenden.
- Benutzerdefinierte Funktionen (UDFs) für wiederverwendbare Datenoperationen in PySpark zu erstellen und zu verwalten.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxisbeispiele.
- Hands-on-Implementierung in einer Live-Lab-Umgebung.
Kursanpassungsoptionen
- Für eine angepasste Schulung für diesen Kurs, kontaktieren Sie uns bitte zur Terminfindung.