Schulungsübersicht
Einführung
- Einführung in Cloud Computing und Big Data-Lösungen
- Überblick über die Eigenschaften und Architektur von Apache Hadoop
Hadoop einrichten
- Einen Hadoop-Cluster planen (vor Ort, in der Cloud usw.)
- Die Betriebssysteme und Hadoop-Distribution auswählen
- Ressourcen bereitstellen (Hardware, Netzwerk usw.)
- Software herunterladen und installieren
- Den Cluster für Flexibilität dimensionieren
Mit HDFS arbeiten
- Hadoop Distributed File System (HDFS) verstehen
- Überblick über die HDFS-Befehlsreferenz
- Auf HDFS zugreifen
- Grundlegende Dateivorgänge auf HDFS durchführen
- S3 als Ergänzung zu HDFS verwenden
Überblick über MapReduce
- Datenfluss im MapReduce-Framework verstehen
- Map, Shuffle, Sort und Reduce
- Demo: Top-Gehälter berechnen
Mit YARN arbeiten
- Ressourcenverwaltung in Hadoop verstehen
- Mit ResourceManager, NodeManager und Application Master arbeiten
- Aufgaben unter YARN planen
- Aufgaben für große Anzahlen von Knoten und Clustern planen
- Demo: Aufgabenplanung
Hadoop mit Spark integrieren
- Speicher für Spark einrichten (HDFS, Amazon S3, NoSQL usw.)
- Resilient Distributed Datasets (RDDs) verstehen
- Einen RDD erstellen
- RDD-Transformationen implementieren
- Demo: Textsuchprogramm für FilmTitel implementieren
Einen Hadoop-Cluster verwalten
- Hadoop überwachen
- Ein Hadoop-Cluster sichern
- Knoten hinzufügen und entfernen
- Eine Leistungsbenchmark durchführen
- Hadoop-Cluster optimieren, um die Leistung zu verbessern
- Sicherung, Wiederherstellung und Geschäftskontinuitätsplanung durchführen
- Hohe Verfügbarkeit (HA) sicherstellen
Einen Hadoop-Cluster aktualisieren und migrieren
- Ressourcenbedarfe bewerten
- Hadoop aktualisieren
- Von vor Ort in die Cloud und umgekehrt wechseln
- Aus Fehlern wiederherstellen
Fehlerbehebung
Zusammenfassung und Schlussfolgerungen
Voraussetzungen
- Erfahrung in der Systemadministration
- Erfahrung mit der Linux-Befehlszeile
- Vorwissen über Big Data-Konzepte
Zielgruppe
- Systemadministratoren
- Datenbankverwalter (DBAs)
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
sehr interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maschinelle Übersetzung
Genügend praktische Umsetzung, der Trainer ist kompetent
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Maschinelle Übersetzung
Lernen Sie Spark Streaming, Databricks und AWS Redshift kennen
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
Übungsaufgaben
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Kurs - Python and Spark for Big Data (PySpark)
Maschinelle Übersetzung