Schulungsübersicht

1.1Hadoop Konzepte

1.1.1HDFS

    Das Design des HDFS-Befehlszeilenschnittstellen-Hadoop-Dateisystems

1.1.2Cluster

    Anatomie eines Clusters Hauptknoten/Slave-Knoten Name Knoten/Datenknoten

1.2 Datenmanipulation

1.2.1MapReduce detailliert

    Kartenphase Phase reduzieren Mischen

1.2.2Analytics mit Map Reduce

    Gruppieren nach mit MapReduce Häufigkeitsverteilungen und Sortieren mit MapReduce Ergebnisse grafisch darstellen (GNU Plot) Histogramme mit MapReduce Streudiagramme mit MapReduce Parsen komplexer Datensätze Zählen mit MapReduce und Combinern Erstellen von Berichten

 

1.2.3Datenbereinigung

    Dokumentenbereinigung Fuzzy-String-Suche Datensatzverknüpfung/Datendeduplizierung Ereignisdaten transformieren und sortieren Quellenzuverlässigkeit überprüfen Ausreißer entfernen

1.2.4Daten extrahieren und transformieren

    Transformieren von Protokollen. Verwenden von Apache Pig zum Filtern. Verwenden von Apache Pig zum Sortieren. Verwenden von Apache Pig zum Sessionisieren

1.2.5Erweiterte Verknüpfungen

    Daten im Mapper mit MapReduce verbinden Daten mit repliziertem Apache Pig-Join verbinden Sortierte Daten mit Apache Pig-Merge-Join verbinden Sortierte Daten mit Apache Pig-Skewed-Join verbinden Verzerrte Daten mit Apache Pig-Skewed-Join verbinden Verwendung eines kartenseitigen Joins in Apache Hive Verwendung optimierter vollständiger äußerer Joins in Apache [1 ] Daten mithilfe eines externen Schlüsselwertspeichers zusammenführen

1.3Leistungsdiagnose- und Optimierungstechniken

    Karte Untersuchen von Spitzen in Eingabedaten Identifizieren von Problemen mit kartenseitigen Datenverzerrungen Durchsatz von Kartenaufgaben Kleine Dateien Nicht aufteilbare Dateien
Reduzieren Zu wenige oder zu viele Reduzierstücke
  • Reduzieren Sie Datenversatzprobleme auf der Seite
  • Reduzieren Sie den Aufgabendurchsatz
  • Langsames Mischen und Sortieren
  • Konkurrierende Jobs und Drosselung des Zeitplaners
  • Stack-Dumps und nicht optimierter Code
  • Hardwarefehler
  • CPU-Konflikt
  • Aufgaben Extrahieren und Visualisieren von Aufgabenausführungszeiten
  • Profilieren Sie Ihre Karte und reduzieren Sie Aufgaben
  • Vermeiden Sie den Reduzierer
  • Filtern und projizieren
  • Verwendung des Combiners
  • Schnelle Sortierung mit Komparatoren
  • Sammeln verzerrter Daten
  • Reduzieren Sie die Verzerrungsminderung
  • Voraussetzungen

    Die Teilnehmer müssen keine speziellen Kenntnisse haben, da sich die Schulung auf die Fähigkeiten der Endbenutzer sowohl bei der Verwaltung als auch bei der Manipulation von Daten unter Apache Hadoop konzentriert.

      21 Stunden
     

    Teilnehmerzahl


    Beginnt

    Endet


    Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.
    Offene Schulungskurse erfordern mindestens 5 Teilnehmer.

    Erfahrungsberichte (3)

    Kombinierte Kurse

    Verwandte Kategorien