Schulungsübersicht

Einführung

Die Architektur und Schlüsselkonzepte von Hadoop verstehen

Das Hadoop Distributed File System (HDFS) verstehen

    Überblick über HDFS und sein Architekturdesign. Interaktion mit HDFS. Durchführen grundlegender Dateioperationen auf HDFS. Überblick über HDFS-Befehlsreferenz. Überblick über Snakebite. Installieren von Snakebite. Verwenden der Snakebite-Clientbibliothek. Verwenden des CLI-Clients

Erlernen des MapReduce-Programmiermodells mit Python

    Überblick über das MapReduce-Modell Programming Verstehen des Datenflusses im MapReduce-Framework Map Shuffle und Sort Reduce
Verwenden des Hadoop-Streaming-Dienstprogramms. Verstehen, wie das Hadoop-Streaming-Dienstprogramm funktioniert
  • Demo: Implementierung der WordCount-Anwendung auf Python
  • Verwendung der mrjob-Bibliothek Übersicht über mrjob
  • mrjob installieren
  • Demo: Implementierung des WordCount-Algorithmus mit mrjob
  • Verstehen, wie ein mit der mrjob-Bibliothek geschriebener MapReduce-Job funktioniert
  • Ausführen einer MapReduce-Anwendung mit mrjob
  • Praktisch: Top-Gehälter mit mrjob berechnen
  • Lernschwein mit Python
  • Überblick über die Pig-Demo: Implementierung des WordCount-Algorithmus in Pig, Konfiguration und Ausführung von Pig-Skripten und Pig-Anweisungen, Verwendung der Pig-Ausführungsmodi, Verwendung des interaktiven Pig-Modus, Verwendung des Pic-Batch-Modus
  • Verstehen der Grundkonzepte der lateinischen Schweinesprache mithilfe von Anweisungen

      Daten werden geladen
    Daten transformieren
  • Daten speichern
  • Erweitern der Pig-Funktionalität mit Python UDFs Registrieren einer Python UDF-Datei
  • Demo: Eine einfache Python UDF
  • Demo: String-Manipulation mit Python UDF
  • Praktisch: Berechnung der 10 aktuellsten Filme mit Python UDF
  • Verwendung von Spark und PySpark
  • Übersicht über die Spark-Demo: Implementierung des WordCount-Algorithmus in PySpark. Übersicht über PySpark mithilfe einer interaktiven Shell und die Implementierung eigenständiger Anwendungen
  • Arbeiten mit Resilient Distributed Datasets (RDDs) Erstellen von RDDs aus einer Python Sammlung
  • RDDs aus Dateien erstellen
  • Implementierung von RDD-Transformationen

      Implementieren von RDD-Aktionen
    Praktisch: Implementierung eines Textprogramms Search für Filmtitel mit PySpark
  • Workflow verwalten mit Python
  • Überblick über Apache Oozie und Luigi, Installation von Luigi, Verständnis der Luigi-Workflow-Konzepte, Aufgaben, Ziele, Parameter
  • Demo: Untersuchen eines Workflows, der den WordCount-Algorithmus implementiert
  • Arbeiten mit Hadoop Workflows, die MapReduce- und Pig-Jobs mithilfe der Konfigurationsdateien von Luigi steuern
  • Arbeiten mit MapReduce in Luigi
  • Arbeiten mit Pig in Luigi
  • Zusammenfassung und Schlussfolgerung

    Voraussetzungen

    • Erfahrungen mit Python Programmierung
    • Grundlegende Vertrautheit mit Hadoop
     28 Stunden

    Teilnehmerzahl



    Preis je Teilnehmer

    Erfahrungsberichte (3)

    Kombinierte Kurse

    Verwandte Kategorien