Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in Data Science für Big Data Analytics
- Data Science Überblick
- Big Data Überblick
- Datentypen
- Treibkräfte und Komplexitäten von Big Data
- Big Data Ökosystem und ein neuer Ansatz zur Analyse
- Wichtige Technologien im Big Data
- Data Mining Prozess und Probleme
- Association Pattern Mining
- Datensatz Clustering
- Ausreißererkennung
- Datenklassifizierung
Einführung in den Lebenszyklus der Datenanalyse
- Entdeckung
- Datenvorbereitung
- Modellplanung
- Modellbau
- Präsentation/Verkommunikation der Ergebnisse
- Operationalisierung
- Übung: Fallstudie
Von diesem Punkt an wird der Großteil der Schulungszeit (80%) auf Beispiele und Übungen in R und verwandten Big Data Technologien verwendet.
Einstieg in R
- Installation von R und RStudio
- Eigenschaften der R-Sprache
- Objekte in R
- Daten in R
- Datenmanipulation
- Big Data Probleme
- Übungen
Einstieg in Hadoop
- Installation von Hadoop
- Hadoop Betriebsmodi verstehen
- HDFS (Hadoop Distributed File System)
- MapReduce Architektur
- Übersicht über Hadoop-verwandte Projekte
- Programmierung in Hadoop MapReduce
- Übungen
Integration von R und Hadoop mit RHadoop
- Komponenten von RHadoop
- Installation von RHadoop und Verbindung mit Hadoop
- Architektur von RHadoop
- Hadoop Streaming mit R
- Datenanalyseprobleme lösen mit RHadoop
- Übungen
Vorbereitung und Aufbereitung von Daten
- Schritte der Datenvorbereitung
- Feature Extraction (Merkmalsextraktion)
- Datensatzreinigung
- Datenintegration und -transformation
- Datenreduktion – Sampling, Merkmalsauswahl,
- Dimensionsreduktion
- Discretization und Binning (Diskretisierung und Gruppierung)
- Übungen und Fallstudie
Erforschende Datenanalysemethoden in R
- Beschreibende Statistiken
- Erforschende Datenanalyse
- Visualisierung – erste Schritte
- Visualisierung einzelner Variablen
- Mehrere Variablen untersuchen
- Statistische Methoden zur Bewertung
- Hypothesentests
- Übungen und Fallstudie
Datenvisualisierung
- Einfache Visualisierungen in R
- Pakete für Datenvisualisierung: ggplot2, lattice, plotly, lattice
- Plot-Formatierung in R
- Fortgeschrittene Grafiken
- Übungen
Regression (Zukünftige Werte schätzen)
- Lineare Regression
- Anwendungsfälle
- Modellbeschreibung
- Diagnose
- Probleme der linearen Regression
- Shrinkage-Methoden, Ridge-Regression, Lasso
- Verallgemeinerungen und Nichtlinearität
- Regressions-Splines
- Lokale Polynomregression
- Generalisierte additive Modelle
- Regression mit RHadoop
- Übungen und Fallstudie
Klassifizierung
- Probleme im Zusammenhang mit der Klassifizierung
- BaYes'sche Einführung
- Naive Bayes
- Logistische Regression
- K-nearest neighbors (k-NN)
- Entscheidungsbaumalgorithmus
- Neuronale Netze
- Support Vector Machines (SVMs)
- Bewertung von Klassifikatoren
- Vergleich der Klassifizierungsmethoden
- Skalierbare Klassifikationsalgorithmen
- Übungen und Fallstudie
Bewertung von Modellleistung und Auswahl
- Verzerrung, Varianz und Modellkomplexität
- Genauigkeit vs. Interpretierbarkeit
- Klassifikatoren bewerten
- Leistungsmaße von Modellen/Algorithmen
- Hold-out-Methode der Validierung
- Cross-Validation (Kreuzvalidierung)
- Einstellen von Maschinelles Lernen mit dem caret-Paket
- Bewertung der Modelleistung mit Profit ROC und Lift-Kurven
Ensemble-Methoden
- Bagging
- Random Forests (Zufallswälder)
- Boosting
- Gradient Boosting
- Übungen und Fallstudie
Support Vector Machines für Klassifizierung und Regression
- Maximal Margin-Klassifikatoren
- Support Vector Classifiers (SVCs)
- Support Vector Machines (SVMs)
- SVMs für Klassifizierungsprobleme
- SVMs für Regressionsprobleme
- Übungen und Fallstudie
Unbekannte Gruppierungen in einem Datensatz identifizieren
- Feature Selection für Clustering
- Repräsentationsbasierte Algorithmen: k-Means, k-Medoids
- Hierarchische Algorithmen: agglomerativ und dividierte Methoden
- Wahrscheinlichkeitsbasierte Algorithmen: EM (Expectation-Maximization)
- Dichte-basierte Algorithmen: DBSCAN, DENCLUE
- Cluster-Validierung
- Fortgeschrittene Clusteringkonzepte
- Clustering mit RHadoop
- Übungen und Fallstudie
Entdecken von Verbindungen durch Link Analysis
- Link Analyse Konzepte
- Metriken zur Netzwerkanalyse
- Pagerank-Algorithmus
- Hyperlink-Induced Topic Search (HITS)
- Link Vorhersage
- Übungen und Fallstudie
Association Pattern Mining
- Frequent Pattern Mining Modell
- Skalierungsprobleme bei frequent pattern mining
- Brute Force Algorithmen
- Apriori-Algorithmus
- FP growth Ansatz
- Bewertung von Kandidatenregeln
- Anwendungen von Association Rules
- Validierung und Testen
- Diagnostics
- Association rules mit R und Hadoop
- Übungen und Fallstudie
Erstellung von Empfehlungsmotoren
- Grundlagen von Empfehlungssystemen verstehen
- Datamining-Techniken in Empfehlungssystemen
- Empfehlungssysteme mit dem recommenderlab-Paket
- Bewertung der Empfehlungssysteme
- Empfehlungen mit RHadoop
- Übung: Erstellung eines Empfehlungsmotors
Textanalyse
- Schritte der Textanalyse
- Rohes Textmaterial sammeln
- Tasche der Wörter (Bag of Words)
- Term Frequency – Inverse Document Frequency (TF-IDF)
- Sentimentbestimmung
- Übungen und Fallstudie
35 Stunden
Erfahrungsberichte (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.