Schulungsübersicht

Einführung in Data Science for Big Data Analytics

    Data Science Übersicht Big Data Übersicht Datenstrukturen Treiber und Komplexität von Big Data Big Data-Ökosystem und ein neuer Ansatz für die Analyse Schlüsseltechnologien in Big Data Data-Mining-Prozess und -Probleme Assoziation Pattern Mining Datenclustering Ausreißererkennung Datenklassifizierung

Einführung in den Datenanalyse-Lebenszyklus

    Entdeckung Datenvorbereitung Modellplanung Modellbildung Präsentation/Communication der Ergebnisse Operationalisierungsübung: Fallstudie

Ab diesem Zeitpunkt wird der Großteil der Schulungszeit (80 %) für Beispiele und Übungen in R und der damit verbundenen Big-Data-Technologie aufgewendet.

Erste Schritte mit R

    Installieren von R- und Rstudio-Funktionen von R-Sprachobjekten in R-Daten in R-Datenmanipulation Big-Data-Probleme Übungen

Erste Schritte mit Hadoop

    Installieren Hadoop Verstehen Hadoop Modi HDFS MapReduce-Architektur Hadoop Übersicht über verwandte Projekte Schreiben von Programmen in Hadoop MapReduce-Übungen

Integration von R und Hadoop mit RHadoop

    Komponenten von RHadoop Installation von RHadoop und Verbindung mit Hadoop Die Architektur von RHadoop Hadoop Streaming mit R Datenanalyse-Problemlösung mit RHadoop Übungen

Vorverarbeitung und Aufbereitung von Daten

    Datenvorbereitungsschritte Merkmalsextraktion Datenbereinigung Datenintegration und -transformation Datenreduktion – Stichprobenziehung, Auswahl von Merkmalsteilmengen, Dimensionsreduktion Diskretisierung und Binning Übungen und Fallstudie

Explorative Datenanalysemethoden in R

    Deskriptive Statistik, explorative Datenanalyse, Visualisierung – vorbereitende Schritte, Visualisierung einer einzelnen Variablen, Untersuchung mehrerer Variablen, statistische Methoden zur Bewertung, Hypothesentests, Übungen und Fallstudie

Data Visualizations

    Grundlegende Visualisierungen in R-Paketen zur Datenvisualisierung ggplot2, lattice, plotly, lattice Formatieren von Diagrammen in R. Übungen zu erweiterten Diagrammen

Regression (Schätzung zukünftiger Werte)

    Lineare Regression Anwendungsfälle Modellbeschreibung Diagnose Probleme mit linearer Regression Schrumpfungsmethoden, Gratregression, das Lasso Verallgemeinerungen und Nichtlinearität Regressionssplines Lokale Polynomregression Verallgemeinerte additive Modelle Regression mit RHadoop Übungen und Fallstudie

Einstufung

    Die klassifizierungsbezogenen Probleme Bayes'sche Auffrischung Naive Bayes Logistische Regression K-nächste Nachbarn Entscheidungsbaumalgorithmus Neuronale Netze Unterstützungsvektormaschinen Diagnose von Klassifikatoren Vergleich von Klassifizierungsmethoden ScalaBle-Klassifizierungsalgorithmen Übungen und Fallstudie

Beurteilung der Modellleistung und -auswahl

    Bias, Varianz und Modellkomplexität, Genauigkeit vs. Interpretierbarkeit, Bewertung von Klassifikatoren, Maße der Modell-/Algorithmusleistung, Hold-out-Validierungsmethode, Kreuzvalidierung, Optimierung von Algorithmen für maschinelles Lernen mit dem Caret-Paket, Visualisierung der Modellleistung mit Profit-ROC- und Lift-Kurven

Ensemble-Methoden

    Bagging Random Forests Boosting Gradient Boosting Übungen und Fallstudie

Unterstützen Sie Vektormaschinen für Klassifizierung und Regression

    Maximal Margin-Klassifizierer. Unterstützt Vektorklassifizierer. Unterstützt Vektormaschinen. SVMs für Klassifizierungsprobleme. SVMs für Regressionsprobleme
Übungen und Fallstudie
  • Identifizieren unbekannter Gruppierungen innerhalb eines Datensatzes
  • Funktionsauswahl für Clustering Repräsentativbasierte Algorithmen: k-means, k-medoids Hierarchische Algorithmen: agglomerative und divisive Methoden Probabilistische Basisalgorithmen: EM Dichtebasierte Algorithmen: DBSCAN, DENCLUE Clustervalidierung Fortgeschrittene Clustering-Konzepte Clustering mit RHadoop Übungen und Fallstudie

      Zusammenhänge entdecken mit Link-Analyse

    Konzepte der Link-Analyse Metriken zur Analyse von Netzwerken Der Pagerank-Algorithmus Hyperlink-induziertes Thema Search Übungen zur Linkvorhersage und Fallstudie

      Assoziationsmuster-Mining

    Häufiges Pattern-Mining-Modell Scala Fähigkeitsprobleme beim häufigen Pattern-Mining Brute-Force-Algorithmen Apriori-Algorithmus Der FP-Wachstumsansatz Bewertung von Kandidatenregeln Anwendungen von Assoziationsregeln Validierung und Testdiagnose Assoziationsregeln mit R und Hadoop Übungen und Fallstudie

      Empfehlungsmaschinen aufbauen

    Empfehlungssysteme verstehen Data-Mining-Techniken, die in Empfehlungssystemen verwendet werden Empfehlungssysteme mit dem Recommenderlab-Paket Evaluierung der Empfehlungssysteme Empfehlungen mit RHadoop Übung: Empfehlungs-Engine erstellen

      Textanalyse

    Schritte zur Textanalyse. Sammeln von Rohtext. Beutel mit Wörtern. Begriffshäufigkeit – Inverse Dokumenthäufigkeit. Bestimmung von Gefühlen. Übungen und Fallstudie

     35 Stunden

    Teilnehmerzahl



    Preis je Teilnehmer

    Erfahrungsberichte (2)

    Kombinierte Kurse

    Unified Batch and Stream Processing with Apache Beam

    14 Stunden

    Verwandte Kategorien