Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in die Datenanalyse für Big Data
- Überblick über Data Science
- Überblick über Big Data
- Datenstrukturen
- Treiber und Komplexitäten von Big Data
- Big Data-Ökosystem und neue Ansätze zur Analyse
- Schlüsseltechnologien im Bereich Big Data
- Datamining-Prozess und -Probleme
- Vereinigungs-Muster-Entdeckung
- Datenclusteranalyse
- Ausreißererkennung
- Dateneinteilung
Einführung in den Datenanalysezyklus
- Entdeckung
- Datenbereitstellung
- Modellplanung
- Modellbau
- Praesentation/Kommunikation der Ergebnisse
- Operationalisierung
- Aufgabe: Fallstudie
Ab diesem Punkt wird die Mehrheit der Schulungszeit (80%) auf Beispiele und Übungen in R und verwandten Big Data-Technologien verwendet.
Einstieg in R
- Installation von R und Rstudio
- Funktionen der R-Sprache
- Objekte in R
- Daten in R
- Datenmanipulation
- Big Data-Probleme
- Übungen
Einstieg in Hadoop
- Installation von Hadoop
- Verständnis der Hadoop-Modi
- HDFS
- MapReduce-Architektur
- Überblick über Hadoop-verwandte Projekte
- Schreiben von Programmen in Hadoop MapReduce
- Übungen
Integration von R und Hadoop mit RHadoop
- Komponenten von RHadoop
- Installation von RHadoop und Verbindung mit Hadoop
- Aufbau von RHadoop
- Hadoop-Streaming mit R
- Datenaufbereitung unter Verwendung von RHadoop
- Übungen
Vorbereitung und Aufbereitung der Daten
- Schritte zur Datenaufbereitung
- Feature-Extraktion
- Datenaufbereitung
- Datenintegration und -transformation
- Datenreduktion – Stichprobenziehung, Auswahl von Feature-Subsets,
- Dimensionsreduktion
- Discretization und Binning
- Übungen und Fallstudie
Explorative Datenanalyse in R
- Deskriptive Statistik
- Explorative Datenanalyse
- Visualisierung – erste Schritte
- Visualisierung einzelner Variablen
- Betrachtung mehrerer Variablen
- Statistische Methoden zur Bewertung
- Hypothese-Tests
- Übungen und Fallstudie
Datenvisualisierungen
- Grundlegende Visualisierungen in R
- Pakete für Datenvisualisierung: ggplot2, lattice, plotly, lattice
- Formatieren von Plots in R
- Vorschau auf fortgeschrittene Grafiken
- Übungen
Regression (Schätzen zukünftiger Werte)
- Anwendungsfälle
- Modellbeschreibung
- Diagnose
- Probleme der linearen Regression
- Verkleinerungsmethoden, Ridge-Regression, Lasso
- Generalisierungen und Nichtlinearität
- Regressions-Splines
- Lokale polynomial Regression
- Verallgemeinerte additive Modelle
- Regression mit RHadoop
- Übungen und Fallstudie
Klassifikation
- Probleme im Zusammenhang mit der Klassifikation
- Auffrischung Bayes’scher Konzepte
- Naive Bayes
- Logistische Regression
- K-nearest neighbors (KNN)
- Entscheidungsbaumalgorithmus
- Neuronale Netze
- Support Vector Machines (SVM)
- Bewertung von Klassifikatoren
- Vergleich der Klassifizierungsmethoden
- Skalierbare Klassifikationsalgorithmen
- Übungen und Fallstudie
Bewertung von Modellleistung und Auswahl
- Verschiebung, Varianz und Modellkomplexität
- Genauigkeit vs. Interpretierbarkeit
- Bewertung von Klassifikatoren
- Leistungsmessungen für Modelle/Algorithmen
- Hold-out-Methode zur Validierung
- Cross-Validation
- Anpassung von Maschinelles-Lernen-Algorithmen mit dem caret-Paket
- Bewertung der Modellleistung durch Profit ROC und Lift-Kurven
Ensemble-Methoden
- Bagging
- Zufallswälder (Random Forests)
- Boosting
- Gradient Boosting
- Übungen und Fallstudie
Support Vector Machines für Klassifikation und Regression
- Klassifikatoren mit maximaler Margen
- Support Vector Classifiers (SVC)
- Support Vector Machines (SVM)
- SVMs für Klassifikationsprobleme
- SVMs für Regressionsprobleme
- Übungen und Fallstudie
Identifizierung unbekannter Gruppierungen in einem Datensatz
- Feature Selection für Clustering
- Repräsentationsbasierte Algorithmen: k-means, k-medoids
- Hierarchische Algorithmen: agglomerative und divisive Methoden
- Wahrscheinlichkeitsbasierte Algorithmen: EM
- Dichtebasierte Algorithmen: DBSCAN, DENCLUE
- Cluster-Validierung
- Fortschrittliche Clustering-Konzepte
- Clustering mit RHadoop
- Übungen und Fallstudie
Entdeckung von Verbindungen durch Link Analysis
- Grundlagen der Link Analyse
- Metriken zur Netzwerkanalyse
- Pagerank-Algorithmus
- Hyperlink-Induzierte Themen-Suche (HITS)
- Verbindungsprognose (Link Prediction)
- Übungen und Fallstudie
Vereinigungs-Muster-Entdeckung
- Frequent Pattern Mining Modell
- Skalierbarkeitsprobleme im frequent pattern mining
- Kraftbrute-Algorithmen (Brute Force)
- Apriori-Algorithmus
- FP-Growth-Ansatz
- Auswertung von Kandidatenregeln
- Anwendung von Assoziationsregeln
- Validierung und Testen
- Bewertung
- Vereinigungs-Muster-Entdeckung mit R und Hadoop
- Übungen und Fallstudie
Erstellung von Empfehlungssystemen
- Grundlagen der Empfehlungssysteme
- Datamining-Techniken in Empfehlungssystemen
- Empfehlungssysteme mit dem recommenderlab-Paket
- Bewertung der Empfehlungssysteme
- Empfehlungen mit RHadoop
- Aufgabe: Erstellung eines Empfehlungssystems
Textanalyse
- Schritte der Textanalyse
- Erfassung von Rohdaten (roher Text)
- Wortbeutel-Modell (Bag of Words)
- Term Frequency – Inverse Document Frequency (TF-IDF)
- Bestimmung von Stimmungen
- Übungen und Fallstudie
35 Stunden
Erfahrungsberichte (2)
Intensität, Ausbildungsmaterialien und Expertise, Klarheit, Excellente Kommunikation mit Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurs - Data Science for Big Data Analytics
Maschinelle Übersetzung
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Kurs - Data Science for Big Data Analytics
Maschinelle Übersetzung