Schulungsübersicht

Modul 1. Einführung in Hadoop

  • Das Hadoop Verteilte Dateisystem (HDFS)
  • Der Lesepfad und der Schreibpfad
  • Dateisystem-Metadaten verwalten
  • Der Namenode und der Datanode
  • Die Namenode-Hochverfügbarkeit
  • Namenode-Föderation
  • Die Befehlszeilentools
  • REST-Unterstützung verstehen

Modul 2. Einführung in MapReduce

  • Analysieren der Daten mit Hadoop
  • Muster zuordnen und reduzieren
  • Java MapReduce
  • Skalieren
  • Datenfluss
  • Entwickeln von Combiner-Funktionen
  • Ausführen eines verteilten MapReduce-Jobs

Modul 3. Planung eines Hadoop Clusters

  • Auswählen einer Distribution und Version von Hadoop
  • Versionen und Funktionen
  • Hardwareauswahl
  • Auswahl der Master- und Worker-Hardware
  • Cluster-Größenbestimmung
  • Auswahl und Vorbereitung des Betriebssystems
  • Bereitstellungslayout
  • Einrichten von Benutzern, Gruppen und Berechtigungen
  • Festplattenkonfiguration
  • Netzwerk-Design

Modul 4. Installation und Konfiguration

  • Installieren Hadoop
  • Konfiguration: Ein Überblick
  • Die Hadoop XML Konfigurationsdateien
  • Umgebungsvariablen und Shell-Skripte
  • Protokollierungskonfiguration
  • HDFS verwalten
  • Optimierung und Tuning
  • Formatieren des Namenodes
  • Erstellen eines /tmp-Verzeichnisses
  • Denken Sie an die Hochverfügbarkeit von Namenode
  • Die Zaunoptionen
  • Automatische Failover-Konfiguration
  • Formatieren und Bootstrap die Namenodes
  • Namenode-Föderation

Modul 5. Verständnis von Hadoop I/O

  • Datenintegrität in HDFS
  • Codecs verstehen
  • Komprimierung und Eingabesplits
  • Verwendung der Komprimierung in MapReduce
  • Der Serialisierungsmechanismus
  • Dateibasierte Datenstrukturen
  • Das SequenceFile-Format
  • Andere Dateiformate und spaltenorientierte Formate

Modul 6. Entwickeln einer MapReduce-Anwendung

  • Die Konfigurations-API
  • Einrichten der Entwicklungsumgebung
  • Konfiguration verwalten
  • GenericOptionsParser, Tool und ToolRunner
  • Einen Unit-Test mit MRUnit schreiben
  • Der Mapper und Reducer
  • Lokale Ausführung mit Testdaten
  • Testen des Treibers
  • Läuft auf einem Cluster
  • Verpacken und Starten eines Jobs
  • Die MapReduce-Web-Benutzeroberfläche
  • Einen Job optimieren

Modul 7. Identität, Authentifizierung und Autorisierung

  • Identität verwalten
  • Kerberos und Hadoop
  • Autorisierung verstehen

Modul 8. Ressource Management

  • Was ist Ressource Management?
  • HDFS-Kontingente
  • MapReduce-Planer
  • Anatomie eines YARN-Anwendungslaufs
  • Ressourcenanfragen
  • Anwendungslebensdauer
  • YARN im Vergleich zu MapReduce 1
  • Planung in YARN
  • Scheduler-Optionen
  • Konfiguration des Kapazitätsplaners
  • Faire Scheduler-Konfiguration
  • Verzögerungsplanung
  • Dominante Ressourcengerechtigkeit

Modul 9. MapReduce-Typen und -Formate

  • MapReduce-Typen
  • Der Standard-MapReduce-Job
  • Definieren der Eingabeformate
  • Verwalten von Eingabeaufteilungen und Datensätzen
  • Texteingabe und Binäreingabe
  • Verwalten mehrerer Eingaben
  • Database Eingabe (und Ausgabe)
  • Ausgabeformate
  • Textausgabe und Binärausgabe
  • Verwalten mehrerer Ausgaben
  • Die Database-Ausgabe

Modul 10. Verwenden von MapReduce-Funktionen

  • Verwendung von Zählern
  • Lesen integrierter Zähler
  • Benutzerdefinierte Java Zähler
  • Sortieren verstehen
  • Verwenden des verteilten Caches

Modul 11. Clusterwartung und Fehlerbehebung

  • Verwalten von Hadoop Prozessen
  • Starten und Stoppen von Prozessen mit Init-Skripten
  • Prozesse manuell starten und stoppen
  • HDFS-Wartungsaufgaben
  • Hinzufügen eines Datenknotens
  • Außerbetriebnahme eines Datenknotens
  • Überprüfen der Dateisystemintegrität mit fsck
  • Ausgleich von HDFS-Blockdaten
  • Umgang mit einer ausgefallenen Festplatte
  • MapReduce-Wartungsaufgaben
  • Einen MapReduce-Job beenden
  • Beenden einer MapReduce-Aufgabe
  • Verwalten der Ressourcenerschöpfung

Modul 12. Überwachung

  • Die verfügbaren Hadoop Metriken
  • Die Rolle von SNMP
  • Gesundheitsüberwachung
  • Prüfungen auf Host-Ebene
  • HDFS-Prüfungen
  • MapReduce-Prüfungen

Modul 13. Backup und Wiederherstellung

  • Datensicherung
  • Verteilte Kopie (distcp)
  • Parallele Datenaufnahme
  • Namenode-Metadaten
  21 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

Erfahrungsberichte (1)

Kombinierte Kurse

Verwandte Kategorien