Schulungsübersicht

Einführung in die Datenanalyse für Big Data

  • Überblick über Data Science
  • Überblick über Big Data
  • Datenstrukturen
  • Treiber und Komplexitäten von Big Data
  • Big Data-Ökosystem und neue Ansätze zur Analyse
  • Schlüsseltechnologien im Bereich Big Data
  • Datamining-Prozess und -Probleme
    • Vereinigungs-Muster-Entdeckung
    • Datenclusteranalyse
    • Ausreißererkennung
    • Dateneinteilung

Einführung in den Datenanalysezyklus

  • Entdeckung
  • Datenbereitstellung
  • Modellplanung
  • Modellbau
  • Praesentation/Kommunikation der Ergebnisse
  • Operationalisierung
  • Aufgabe: Fallstudie

Ab diesem Punkt wird die Mehrheit der Schulungszeit (80%) auf Beispiele und Übungen in R und verwandten Big Data-Technologien verwendet.

Einstieg in R

  • Installation von R und Rstudio
  • Funktionen der R-Sprache
  • Objekte in R
  • Daten in R
  • Datenmanipulation
  • Big Data-Probleme
  • Übungen

Einstieg in Hadoop

  • Installation von Hadoop
  • Verständnis der Hadoop-Modi
  • HDFS
  • MapReduce-Architektur
  • Überblick über Hadoop-verwandte Projekte
  • Schreiben von Programmen in Hadoop MapReduce
  • Übungen

Integration von R und Hadoop mit RHadoop

  • Komponenten von RHadoop
  • Installation von RHadoop und Verbindung mit Hadoop
  • Aufbau von RHadoop
  • Hadoop-Streaming mit R
  • Datenaufbereitung unter Verwendung von RHadoop
  • Übungen

Vorbereitung und Aufbereitung der Daten

  • Schritte zur Datenaufbereitung
  • Feature-Extraktion
  • Datenaufbereitung
  • Datenintegration und -transformation
  • Datenreduktion – Stichprobenziehung, Auswahl von Feature-Subsets,
  • Dimensionsreduktion
  • Discretization und Binning
  • Übungen und Fallstudie

Explorative Datenanalyse in R

  • Deskriptive Statistik
  • Explorative Datenanalyse
  • Visualisierung – erste Schritte
  • Visualisierung einzelner Variablen
  • Betrachtung mehrerer Variablen
  • Statistische Methoden zur Bewertung
  • Hypothese-Tests
  • Übungen und Fallstudie

Datenvisualisierungen

  • Grundlegende Visualisierungen in R
  • Pakete für Datenvisualisierung: ggplot2, lattice, plotly, lattice
  • Formatieren von Plots in R
  • Vorschau auf fortgeschrittene Grafiken
  • Übungen

Regression (Schätzen zukünftiger Werte)

  • Anwendungsfälle
  • Modellbeschreibung
  • Diagnose
  • Probleme der linearen Regression
  • Verkleinerungsmethoden, Ridge-Regression, Lasso
  • Generalisierungen und Nichtlinearität
  • Regressions-Splines
  • Lokale polynomial Regression
  • Verallgemeinerte additive Modelle
  • Regression mit RHadoop
  • Übungen und Fallstudie

Klassifikation

  • Probleme im Zusammenhang mit der Klassifikation
  • Auffrischung Bayes’scher Konzepte
  • Naive Bayes
  • Logistische Regression
  • K-nearest neighbors (KNN)
  • Entscheidungsbaumalgorithmus
  • Neuronale Netze
  • Support Vector Machines (SVM)
  • Bewertung von Klassifikatoren
  • Vergleich der Klassifizierungsmethoden
  • Skalierbare Klassifikationsalgorithmen
  • Übungen und Fallstudie

Bewertung von Modellleistung und Auswahl

  • Verschiebung, Varianz und Modellkomplexität
  • Genauigkeit vs. Interpretierbarkeit
  • Bewertung von Klassifikatoren
  • Leistungsmessungen für Modelle/Algorithmen
  • Hold-out-Methode zur Validierung
  • Cross-Validation
  • Anpassung von Maschinelles-Lernen-Algorithmen mit dem caret-Paket
  • Bewertung der Modellleistung durch Profit ROC und Lift-Kurven

Ensemble-Methoden

  • Bagging
  • Zufallswälder (Random Forests)
  • Boosting
  • Gradient Boosting
  • Übungen und Fallstudie

Support Vector Machines für Klassifikation und Regression

  • Klassifikatoren mit maximaler Margen
    • Support Vector Classifiers (SVC)
    • Support Vector Machines (SVM)
    • SVMs für Klassifikationsprobleme
    • SVMs für Regressionsprobleme
  • Übungen und Fallstudie

Identifizierung unbekannter Gruppierungen in einem Datensatz

  • Feature Selection für Clustering
  • Repräsentationsbasierte Algorithmen: k-means, k-medoids
  • Hierarchische Algorithmen: agglomerative und divisive Methoden
  • Wahrscheinlichkeitsbasierte Algorithmen: EM
  • Dichtebasierte Algorithmen: DBSCAN, DENCLUE
  • Cluster-Validierung
  • Fortschrittliche Clustering-Konzepte
  • Clustering mit RHadoop
  • Übungen und Fallstudie

Entdeckung von Verbindungen durch Link Analysis

  • Grundlagen der Link Analyse
  • Metriken zur Netzwerkanalyse
  • Pagerank-Algorithmus
  • Hyperlink-Induzierte Themen-Suche (HITS)
  • Verbindungsprognose (Link Prediction)
  • Übungen und Fallstudie

Vereinigungs-Muster-Entdeckung

  • Frequent Pattern Mining Modell
  • Skalierbarkeitsprobleme im frequent pattern mining
  • Kraftbrute-Algorithmen (Brute Force)
  • Apriori-Algorithmus
  • FP-Growth-Ansatz
  • Auswertung von Kandidatenregeln
  • Anwendung von Assoziationsregeln
  • Validierung und Testen
  • Bewertung
  • Vereinigungs-Muster-Entdeckung mit R und Hadoop
  • Übungen und Fallstudie

Erstellung von Empfehlungssystemen

  • Grundlagen der Empfehlungssysteme
  • Datamining-Techniken in Empfehlungssystemen
  • Empfehlungssysteme mit dem recommenderlab-Paket
  • Bewertung der Empfehlungssysteme
  • Empfehlungen mit RHadoop
  • Aufgabe: Erstellung eines Empfehlungssystems

Textanalyse

  • Schritte der Textanalyse
  • Erfassung von Rohdaten (roher Text)
  • Wortbeutel-Modell (Bag of Words)
  • Term Frequency – Inverse Document Frequency (TF-IDF)
  • Bestimmung von Stimmungen
  • Übungen und Fallstudie
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (2)

Kommende Kurse

Verwandte Kategorien