Schulungsübersicht

Einleitung:

  • Apache Spark in Hadoop Ökosystem
  • Kurze Einführung für Python, Scala

Grundlagen (Theorie):

  • Architektur
  • RDD
  • Transformation und Aktionen
  • Stufe, Aufgabe, Abhängigkeiten

Verwendung der Databricks-Umgebung, um die Grundlagen zu verstehen (praktischer Workshop):

  • Übungen mit der RDD-API
  • Grundlegende Aktions- und Transformationsfunktionen
  • PairRDD
  • Join
  • Caching-Strategien
  • Übungen mit der DataFrame-API
  • SparkSQL
  • DataFrame: Auswählen, Filtern, Gruppieren, Sortieren
  • UDF (Benutzerdefinierte Funktion)
  • Einblick in die DataSet-API
  • Streaming

Verwendung der AWS-Umgebung, um die Bereitstellung zu verstehen (praktischer Workshop):

  • Grundlagen von AWS Glue
  • Verstehen der Unterschiede zwischen AWS EMR und AWS Glue
  • Beispielaufträge in beiden Umgebungen
  • Verstehen der Vor- und Nachteile

Extra:

  • Einführung in die Apache Airflow Orchestrierung

Voraussetzungen

Programmierkenntnisse (vorzugsweise Python, Scala)

SQL Grundlagen

  21 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

Erfahrungsberichte (3)

Kombinierte Kurse

Verwandte Kategorien