Schulungsübersicht
PySpark & Machine Learning
Modul 1: Big Data & Spark-Grundlagen
- Überblick über das Big-Data-Ökosystem und die Rolle von Spark in modernen Datenplattformen
- Verständnis der Spark-Architektur: Driver, Executor, Cluster-Manager, verzögerte Auswertung (Lazy Evaluation), DAG und Ausführungsplanung
- Unterschiede zwischen den RDD- und DataFrame-APIs und wann welcher Ansatz zu verwenden ist
- Erstellen und Konfigurieren einer SparkSession sowie Grundlagen der Anwendungskonfiguration
Modul 2: PySpark DataFrames
- Lesen und Schreiben von Daten aus Unternehmensquellen und -formaten (CSV, JSON, Parquet, Delta)
- Arbeiten mit PySpark DataFrames: Transformationen, Aktionen, Spaltenausdrücke, Filterung, Joins und Aggregationen
- Implementierung fortgeschrittener Operationen wie Fensterfunktionen, Umgang mit Zeitstempeln und Arbeiten mit verschachtelten Daten
- Anwendung von Datenqualitätsprüfungen und Schreiben wiederverwendbarer, wartbarer PySpark-Code
Modul 3: Effiziente Verarbeitung großer Datensätze
- Grundlagen der Leistungsverbesserung: Partitionierungsstrategien, Shuffle-Verhalten, Caching und Persistierung
- Anwendung von Optimierungstechniken, einschließlich Broadcast-Joins und Analyse von Ausführungsplänen
- Effiziente Verarbeitung großer Datensätze und bewährte Verfahren für skalierbare Datenworkflows
- Verständnis von Schemaevolution und modernen Speicherformaten in Unternehmensumgebungen
Modul 4: Feature Engineering im großen Maßstab
- Feature Engineering mit Spark MLlib: Umgang mit fehlenden Werten, Kodierung kategorialer Variablen und Feature-Skalierung
- Entwurf wiederverwendbarer Vorverarbeitungsschritte und Vorbereitung von Datensätzen für Machine-Learning-Pipelines
- Einführung in die Merkmalsauswahl und den Umgang mit unausgeglichenen Datensätzen
Modul 5: Machine Learning mit Spark MLlib
- Verständnis der MLlib-Architektur und des Estimator/Transformer-Musters
- Training von Regressions- und Klassifikationsmodellen im großen Maßstab (Lineare Regression, Logistische Regression, Entscheidungsbäume, Random Forest)
- Vergleich von Modellen und Interpretation von Ergebnissen in verteilten Machine-Learning-Workflows
Modul 6: Durchgängige ML-Pipelines
- Aufbau durchgängiger Machine-Learning-Pipelines, die Vorverarbeitung, Feature Engineering und Modellierung kombinieren
- Anwendung von Strategien für die Aufteilung in Trainings-, Validierungs- und Testdatensätze
- Durchführung von Kreuzvalidierung und Hyperparameter-Optimierung mittels Grid Search und Random Search
- Strukturierung reproduzierbarer Machine-Learning-Experimente
Modul 7: Modellbewertung & praktische ML-Entscheidungen
- Anwendung geeigneter Evaluierungsmetriken für Regressions- und Klassifikationsprobleme
- Identifizierung von Über- und Unteranpassung sowie Treffen praktischer Entscheidungen zur Modellauswahl
- Interpretation der Merkmalswichtigkeit und Verständnis des Modellverhaltens
Modul 8: Produktion & unternehmensweite Praktiken
- Persistieren und Laden von Modellen in Spark
- Implementierung von Batch-Inferenz-Workflows auf großen Datensätzen
- Verständnis des Machine-Learning-Lebenszyklus in Unternehmensumgebungen
- Einführung in Versionsverwaltung, Konzepte des Experiment-Trackings und grundlegende Teststrategien
Praktisches Ergebnis
- Fähigkeit, eigenständig mit PySpark zu arbeiten
- Fähigkeit, große Datensätze effizient zu verarbeiten
- Fähigkeit, Feature Engineering im großen Maßstab durchzuführen
- Fähigkeit, skalierbare Machine-Learning-Pipelines zu erstellen
Voraussetzungen
Die Teilnehmenden sollten über folgende Vorkenntnisse verfügen:
Grundlegende Python-Programmierkenntnisse, einschließlich der Arbeit mit Funktionen, Datenstrukturen und Bibliotheken
Fundamentales Verständnis von Datenanalysekonzepten wie Datensätzen, Transformationen und Aggregationen
Grundkenntnisse in SQL und relationalen Datenkonzepten
Einleitendes Verständnis von Machine-Learning-Konzepten wie Trainingsdatensätzen, Merkmalen und Evaluierungsmetriken
Empfehlenswert ist zudem Vertrautheit mit Kommandozeilenumgebungen und grundlegenden Softwareentwicklungspraktiken
Erfahrung mit Pandas, NumPy oder ähnlichen Datenverarbeitungsbibliotheken ist hilfreich, aber nicht zwingend erforderlich.
Erfahrungsberichte (1)
Ich mochte es, dass es praktisch war. Ich liebte es, die theoretischen Kenntnisse mit praktischen Beispielen anzuwenden.
Aurelia-Adriana - Allianz Services Romania
Kurs - Python and Spark for Big Data (PySpark)
Maschinelle Übersetzung