Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Modul 1. Einführung in Hadoop
- Das Hadoop Verteilte Dateisystem (HDFS)
- Der Lesepfad und der Schreibpfad
- Dateisystem-Metadaten verwalten
- Der Namenode und der Datanode
- Die Namenode-Hochverfügbarkeit
- Namenode-Föderation
- Die Befehlszeilentools
- REST-Unterstützung verstehen
Modul 2. Einführung in MapReduce
- Analysieren der Daten mit Hadoop
- Muster zuordnen und reduzieren
- Java MapReduce
- Skalieren
- Datenfluss
- Entwickeln von Combiner-Funktionen
- Ausführen eines verteilten MapReduce-Jobs
Modul 3. Planung eines Hadoop Clusters
- Auswählen einer Distribution und Version von Hadoop
- Versionen und Funktionen
- Hardwareauswahl
- Auswahl der Master- und Worker-Hardware
- Cluster-Größenbestimmung
- Auswahl und Vorbereitung des Betriebssystems
- Bereitstellungslayout
- Einrichten von Benutzern, Gruppen und Berechtigungen
- Festplattenkonfiguration
- Netzwerk-Design
Modul 4. Installation und Konfiguration
- Installieren Hadoop
- Konfiguration: Ein Überblick
- Die Hadoop XML Konfigurationsdateien
- Umgebungsvariablen und Shell-Skripte
- Protokollierungskonfiguration
- HDFS verwalten
- Optimierung und Tuning
- Formatieren des Namenodes
- Erstellen eines /tmp-Verzeichnisses
- Denken Sie an die Hochverfügbarkeit von Namenode
- Die Zaunoptionen
- Automatische Failover-Konfiguration
- Formatieren und Bootstrap die Namenodes
- Namenode-Föderation
Modul 5. Verständnis von Hadoop I/O
- Datenintegrität in HDFS
- Codecs verstehen
- Komprimierung und Eingabesplits
- Verwendung der Komprimierung in MapReduce
- Der Serialisierungsmechanismus
- Dateibasierte Datenstrukturen
- Das SequenceFile-Format
- Andere Dateiformate und spaltenorientierte Formate
Modul 6. Entwickeln einer MapReduce-Anwendung
- Die Konfigurations-API
- Einrichten der Entwicklungsumgebung
- Konfiguration verwalten
- GenericOptionsParser, Tool und ToolRunner
- Einen Unit-Test mit MRUnit schreiben
- Der Mapper und Reducer
- Lokale Ausführung mit Testdaten
- Testen des Treibers
- Läuft auf einem Cluster
- Verpacken und Starten eines Jobs
- Die MapReduce-Web-Benutzeroberfläche
- Einen Job optimieren
Modul 7. Identität, Authentifizierung und Autorisierung
- Identität verwalten
- Kerberos und Hadoop
- Autorisierung verstehen
Modul 8. Ressource Management
- Was ist Ressource Management?
- HDFS-Kontingente
- MapReduce-Planer
- Anatomie eines YARN-Anwendungslaufs
- Ressourcenanfragen
- Anwendungslebensdauer
- YARN im Vergleich zu MapReduce 1
- Planung in YARN
- Scheduler-Optionen
- Konfiguration des Kapazitätsplaners
- Faire Scheduler-Konfiguration
- Verzögerungsplanung
- Dominante Ressourcengerechtigkeit
Modul 9. MapReduce-Typen und -Formate
- MapReduce-Typen
- Der Standard-MapReduce-Job
- Definieren der Eingabeformate
- Verwalten von Eingabeaufteilungen und Datensätzen
- Texteingabe und Binäreingabe
- Verwalten mehrerer Eingaben
- Database Eingabe (und Ausgabe)
- Ausgabeformate
- Textausgabe und Binärausgabe
- Verwalten mehrerer Ausgaben
- Die Database-Ausgabe
Modul 10. Verwenden von MapReduce-Funktionen
- Verwendung von Zählern
- Lesen integrierter Zähler
- Benutzerdefinierte Java Zähler
- Sortieren verstehen
- Verwenden des verteilten Caches
Modul 11. Clusterwartung und Fehlerbehebung
- Verwalten von Hadoop Prozessen
- Starten und Stoppen von Prozessen mit Init-Skripten
- Prozesse manuell starten und stoppen
- HDFS-Wartungsaufgaben
- Hinzufügen eines Datenknotens
- Außerbetriebnahme eines Datenknotens
- Überprüfen der Dateisystemintegrität mit fsck
- Ausgleich von HDFS-Blockdaten
- Umgang mit einer ausgefallenen Festplatte
- MapReduce-Wartungsaufgaben
- Einen MapReduce-Job beenden
- Beenden einer MapReduce-Aufgabe
- Verwalten der Ressourcenerschöpfung
Modul 12. Überwachung
- Die verfügbaren Hadoop Metriken
- Die Rolle von SNMP
- Gesundheitsüberwachung
- Prüfungen auf Host-Ebene
- HDFS-Prüfungen
- MapReduce-Prüfungen
Modul 13. Backup und Wiederherstellung
- Datensicherung
- Verteilte Kopie (distcp)
- Parallele Datenaufnahme
- Namenode-Metadaten
21 Stunden
Erfahrungsberichte (1)
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.