Schulungsübersicht

Einführung in Data Science für Big Data Analytics

  • Data Science Überblick
  • Big Data Überblick
  • Datentypen
  • Treibkräfte und Komplexitäten von Big Data
  • Big Data Ökosystem und ein neuer Ansatz zur Analyse
  • Wichtige Technologien im Big Data
  • Data Mining Prozess und Probleme
    • Association Pattern Mining
    • Datensatz Clustering
    • Ausreißererkennung
    • Datenklassifizierung

Einführung in den Lebenszyklus der Datenanalyse

  • Entdeckung
  • Datenvorbereitung
  • Modellplanung
  • Modellbau
  • Präsentation/Verkommunikation der Ergebnisse
  • Operationalisierung
  • Übung: Fallstudie

Von diesem Punkt an wird der Großteil der Schulungszeit (80%) auf Beispiele und Übungen in R und verwandten Big Data Technologien verwendet.

Einstieg in R

  • Installation von R und RStudio
  • Eigenschaften der R-Sprache
  • Objekte in R
  • Daten in R
  • Datenmanipulation
  • Big Data Probleme
  • Übungen

Einstieg in Hadoop

  • Installation von Hadoop
  • Hadoop Betriebsmodi verstehen
  • HDFS (Hadoop Distributed File System)
  • MapReduce Architektur
  • Übersicht über Hadoop-verwandte Projekte
  • Programmierung in Hadoop MapReduce
  • Übungen

Integration von R und Hadoop mit RHadoop

  • Komponenten von RHadoop
  • Installation von RHadoop und Verbindung mit Hadoop
  • Architektur von RHadoop
  • Hadoop Streaming mit R
  • Datenanalyseprobleme lösen mit RHadoop
  • Übungen

Vorbereitung und Aufbereitung von Daten

  • Schritte der Datenvorbereitung
  • Feature Extraction (Merkmalsextraktion)
  • Datensatzreinigung
  • Datenintegration und -transformation
  • Datenreduktion – Sampling, Merkmalsauswahl,
  • Dimensionsreduktion
  • Discretization und Binning (Diskretisierung und Gruppierung)
  • Übungen und Fallstudie

Erforschende Datenanalysemethoden in R

  • Beschreibende Statistiken
  • Erforschende Datenanalyse
  • Visualisierung – erste Schritte
  • Visualisierung einzelner Variablen
  • Mehrere Variablen untersuchen
  • Statistische Methoden zur Bewertung
  • Hypothesentests
  • Übungen und Fallstudie

Datenvisualisierung

  • Einfache Visualisierungen in R
  • Pakete für Datenvisualisierung: ggplot2, lattice, plotly, lattice
  • Plot-Formatierung in R
  • Fortgeschrittene Grafiken
  • Übungen

Regression (Zukünftige Werte schätzen)

  • Lineare Regression
  • Anwendungsfälle
  • Modellbeschreibung
  • Diagnose
  • Probleme der linearen Regression
  • Shrinkage-Methoden, Ridge-Regression, Lasso
  • Verallgemeinerungen und Nichtlinearität
  • Regressions-Splines
  • Lokale Polynomregression
  • Generalisierte additive Modelle
  • Regression mit RHadoop
  • Übungen und Fallstudie

Klassifizierung

  • Probleme im Zusammenhang mit der Klassifizierung
  • BaYes'sche Einführung
  • Naive Bayes
  • Logistische Regression
  • K-nearest neighbors (k-NN)
  • Entscheidungsbaumalgorithmus
  • Neuronale Netze
  • Support Vector Machines (SVMs)
  • Bewertung von Klassifikatoren
  • Vergleich der Klassifizierungsmethoden
  • Skalierbare Klassifikationsalgorithmen
  • Übungen und Fallstudie

Bewertung von Modellleistung und Auswahl

  • Verzerrung, Varianz und Modellkomplexität
  • Genauigkeit vs. Interpretierbarkeit
  • Klassifikatoren bewerten
  • Leistungsmaße von Modellen/Algorithmen
  • Hold-out-Methode der Validierung
  • Cross-Validation (Kreuzvalidierung)
  • Einstellen von Maschinelles Lernen mit dem caret-Paket
  • Bewertung der Modelleistung mit Profit ROC und Lift-Kurven

Ensemble-Methoden

  • Bagging
  • Random Forests (Zufallswälder)
  • Boosting
  • Gradient Boosting
  • Übungen und Fallstudie

Support Vector Machines für Klassifizierung und Regression

  • Maximal Margin-Klassifikatoren
    • Support Vector Classifiers (SVCs)
    • Support Vector Machines (SVMs)
    • SVMs für Klassifizierungsprobleme
    • SVMs für Regressionsprobleme
  • Übungen und Fallstudie

Unbekannte Gruppierungen in einem Datensatz identifizieren

  • Feature Selection für Clustering
  • Repräsentationsbasierte Algorithmen: k-Means, k-Medoids
  • Hierarchische Algorithmen: agglomerativ und dividierte Methoden
  • Wahrscheinlichkeitsbasierte Algorithmen: EM (Expectation-Maximization)
  • Dichte-basierte Algorithmen: DBSCAN, DENCLUE
  • Cluster-Validierung
  • Fortgeschrittene Clusteringkonzepte
  • Clustering mit RHadoop
  • Übungen und Fallstudie

Entdecken von Verbindungen durch Link Analysis

  • Link Analyse Konzepte
  • Metriken zur Netzwerkanalyse
  • Pagerank-Algorithmus
  • Hyperlink-Induced Topic Search (HITS)
  • Link Vorhersage
  • Übungen und Fallstudie

Association Pattern Mining

  • Frequent Pattern Mining Modell
  • Skalierungsprobleme bei frequent pattern mining
  • Brute Force Algorithmen
  • Apriori-Algorithmus
  • FP growth Ansatz
  • Bewertung von Kandidatenregeln
  • Anwendungen von Association Rules
  • Validierung und Testen
  • Diagnostics
  • Association rules mit R und Hadoop
  • Übungen und Fallstudie

Erstellung von Empfehlungsmotoren

  • Grundlagen von Empfehlungssystemen verstehen
  • Datamining-Techniken in Empfehlungssystemen
  • Empfehlungssysteme mit dem recommenderlab-Paket
  • Bewertung der Empfehlungssysteme
  • Empfehlungen mit RHadoop
  • Übung: Erstellung eines Empfehlungsmotors

Textanalyse

  • Schritte der Textanalyse
  • Rohes Textmaterial sammeln
  • Tasche der Wörter (Bag of Words)
  • Term Frequency – Inverse Document Frequency (TF-IDF)
  • Sentimentbestimmung
  • Übungen und Fallstudie
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (2)

Kommende Kurse

Verwandte Kategorien