Schulungsübersicht

Kapitel 1: Data Management in HDFS

  • Verschiedene Datenformate (JSON / Avro / Parquet)
  • Kompressionsverfahren
  • Datenschutzmaskierung
  • Labore: Analyse verschiedener Datenformate; Aktivieren von Kompression

Kapitel 2: Erweiterte Pig-Verwendung

  • Nutzerdefinierte Funktionen
  • Einführung in Pig-Bibliotheken (ElephantBird / Data-Fu)
  • Einladen komplexer strukturierter Daten mit Pig
  • Pig-Optimierung
  • Labore: Erweitertes Pig-Skripting, Parsen von komplexen Datentypen

Kapitel 3 : Erweiterte Hive

  • Nutzerdefinierte Funktionen
  • Verkompensierte Tabellen
  • Hive-Leistungsoptimierung
  • Labore: Erstellen von verkompensierten Tabellen, Auswerten von Tabellenformaten und Konfiguration

Kapitel 4 : Erweiterte HBase-Verwendung

  • Erweitertes Schemamodellieren
  • Kompression
  • Masseingabe von Daten
  • Vergleich breiter und tiefer Tabellen
  • HBase und Pig
  • HBase und Hive
  • Leistungsoptimierung für HBase
  • Labore: Optimieren von HBase; Zugriff auf HBase-Daten aus Pig & Hive; Verwenden von Phoenix zur Datenaufbereitung

Voraussetzungen

  • geübt im Umgang mit der Java Programmiersprache (die meisten Übungen sind in Java)
  • geübt in der Verwendung des Linux-Umfeldes (imstande, den Linux-Kommandozeileninterpreter zu bedienen und Dateien mit vi/nano zu bearbeiten)
  • grundlegende Kenntnisse von Hadoop.

Lab-Umgebung

Null-Installationsnotwendigkeit: Es ist nicht notwendig, die Hadoop-Software auf den Rechnern der Teilnehmer zu installieren! Es wird eine funktionsfähige Hadoop-Klusterumgebung bereitgestellt.

Die Teilnehmer benötigen Folgendes

 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien