Schulungsübersicht
- Einleitung
- Hadoop Geschichte, Konzepte
- Ökosystem
- Verteilungen
- Architektur auf hohem Niveau
- Hadoop Mythen
- Hadoop Herausforderungen (Hardware/Software)
- Labs: diskutieren Sie Ihre Big Data Projekte und Probleme
- Planung und Installation
- Auswahl von Software, Hadoop Distributionen
- Dimensionierung des Clusters, Planung für Wachstum
- Auswahl von Hardware und Netzwerk
- Rack-Topologie
- Installation
- Mehrmandantenfähigkeit
- Verzeichnisstruktur, Protokolle
- Benchmarking
- Übungen: Cluster-Installation, Performance-Benchmarks durchführen
- HDFS-Betrieb
- Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
- Knoten und Dämonen (NameNode, sekundärer NameNode, HA Standby NameNode, DataNode)
- Zustandsüberwachung
- Befehlszeilen- und browserbasierte Verwaltung
- Hinzufügen von Speicherplatz, Ersetzen defekter Laufwerke
- Übungen: Kennenlernen der HDFS-Kommandozeilen
- Dateneingabe
- Flume für die Aufnahme von Protokollen und anderen Daten in das HDFS
- Sqoop zum Importieren von SQL-Datenbanken in HDFS sowie zum Exportieren zurück nach SQL
- Hadoop Data Warehousing mit Hive
- Kopieren von Daten zwischen Clustern (distcp)
- Verwendung von S3 als Ergänzung zu HDFS
- Bewährte Praktiken und Architekturen für die Dateneingabe
- Übungen: Einrichten und Verwenden von Flume, dasselbe für Sqoop
- MapReduce-Operationen und -Verwaltung
- Parallel Computing vor MapReduce: Vergleich HPC vs. Hadoop Verwaltung
- MapReduce-Cluster-Lasten
- Knoten und Daemons (JobTracker, TaskTracker)
- MapReduce UI durchlaufen
- Mapreduce-Konfiguration
- Job-Konfiguration
- Optimierung von MapReduce
- Fool-proofing MR: Was Sie Ihren Programmierern sagen sollten
- Labs: Ausführen von MapReduce-Beispielen
- YARN: neue Architektur und neue Funktionen
- YARN-Designziele und Implementierungsarchitektur
- Neue Akteure: ResourceManager, NodeManager, Anwendungsmaster
- Installieren von YARN
- Job-Scheduling unter YARN
- Übungen: Untersuchung von Job Scheduling
- Fortgeschrittene Themen
- Hardware-Überwachung
- Cluster-Überwachung
- Hinzufügen und Entfernen von Servern, Upgrades Hadoop
- Sicherung, Wiederherstellung und Planung der Geschäftskontinuität
- Oozie-Job-Workflows
- Hadoop Hochverfügbarkeit (HA)
- Hadoop Föderation
- Sichern Ihres Clusters mit Kerberos
- Übungen: Überwachung einrichten
- Optionale Strecken
- Cloudera Manager für Cluster-Administration, Überwachung und Routineaufgaben; Installation, Verwendung. In diesem Track werden alle Übungen und Labs innerhalb der Cloudera Distributionsumgebung (CDH5) durchgeführt
- Ambari für die Cluster-Administration, Überwachung und Routineaufgaben; Installation, Nutzung. In diesem Kurs werden alle Übungen und Praktika mit dem Ambari-Cluster-Manager und der Hortonworks Data Platform (HDP 2.0) durchgeführt.
Voraussetzungen
- gute Kenntnisse der grundlegenden Linux Systemverwaltung
- grundlegende Skripting-Kenntnisse
Kenntnisse in Hadoop und Distributed Computing sind nicht erforderlich, werden aber im Kurs vorgestellt und erläutert.
Laborumgebung
Null-Installation: Es besteht keine Notwendigkeit, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Teilnehmern zur Verfügung gestellt.
Die Teilnehmer benötigen Folgendes
- einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser für den Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser mit installierter FoxyProxy-Erweiterung
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung