Schulungsübersicht
Machine Learning Einführung
- Arten der maschinellen Lernverfahren – überwachtes vs. unüberwachtes Lernen
- Von statistischem Lernen zu maschinellem Lernen
- Der Workflow des Datenminings: Geschäftsverständnis, Datenvorbereitung, Modellierung, Implementierung
- Auswahl der richtigen Algorithmus für die Aufgabe
- Overfitting und das Bias-Variance-Tradeoff
Python und ML-Bibliothekenübersicht
- Warum Programmiersprachen für ML verwenden?
- Auswahl zwischen R und Python
- Kurze Einführung in Python und Jupyter-Notebooks
- Python-Bibliotheken: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testen und Evaluieren von ML-Algorithmen
- Allgemeinheit, Overfitting und Modellvalidierung
- Evaluierungsstrategien: Holdout-Methode, Kreuzvalidierung, Bootstrapping
- Metriken für Regression: ME, MSE, RMSE, MAPE
- Metriken für Klassifikation: Genauigkeit, Verwirrungsmatrix, unbalancierte Klassen
- Modellleistung visualisieren: Profitkurve, ROC-Kurve, Liftkurve
- Modellauswahl und Grid Search zur Anpassung
Datenvorbereitung
- Datenimport und Speicherung in Python
- Explorative Analyse und Zusammenfassungsstatistiken
- Umgang mit fehlenden Werten und Ausreißern
- Standardisierung, Normalisierung und Transformation
- Kodierung qualitativer Daten und Datenaufbereitung mit pandas
Klassifikationsalgorithmen
- Zweiklassige vs. mehrklassige Klassifikation
- Logistische Regression und Diskriminanzfunktionen
- Naïve Bayes, k-Nächste-Nachbarn
- Entscheidungsbaum: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines und Kerne
- Ensemble-Lernalgorithmen
Regression und numerische Vorhersage
- Kleinste Quadrate und Variablenselektion
- Regularisierungsmethoden: L1, L2
- Polynomiale Regression und nichtlineare Modelle
- Regressionsbäume und Splines
Unsupervised Learning
- Klusterungstechniken: k-Means, k-Medoids, hierarchische Klustern, SOMs
- Datenreduktion: PCA, Faktorenanalyse, SVD
- Mehrdimensionale Skalierung
Text Mining
- Vorverarbeitung und Tokenisierung von Texten
- Bag-of-Words, Stemming und Lemmatisierung
- Sentimentanalyse und Worthäufigkeiten
- Visualisierung von Textdaten mit Word Clouds
Vorschlagsysteme
- Nutzerbasiertes und item-basiertes Collaborative Filtering
- Gestaltung und Bewertung von Vorschlagengeneratoren
Assoziationsmuster-Mining
- Häufige Itemsets und Apriori-Algorithmus
- Market-Basket-Analyse und Lift-Ratio
Ausreißerdetektion
- Extremwertanalyse
- Distanz-basierte und Dichte-basierte Methoden
- Ausreißerdetektion in hochdimensionalen Daten
Machine Learning Fallstudie
- Verständnis des Geschäftsauftrags
- Datenvorbereitung und Merkmalsingenieurwesen
- Modellauswahl und Parameteranpassung
- Bewertung und Darstellung der Ergebnisse
- Implementierung
Zusammenfassung und weitere Schritte
Voraussetzungen
- Eine Grundverständnis von Statistik und linearem Algebra
- Bekanntschaft mit Datenanalyse oder Business-Intelligence Konzepten
- Eine gewisse Exposition gegenüber Programmierung (vorzugsweise Python oder R) wird empfohlen
- Interesse am Erlernen von angewandter maschinellem Lernen für datengesteuerte Projekte
Zielgruppe
- Datenanalysten und -wissenschaftler
- Statistiker und Forschungsexperten
- Entwickler und IT-Professionals, die maschinelles Lernen Werkzeuge erkunden
- Jeder, der an Datenwissenschaft oder vorhersagebasierte Analyseprojekte beteiligt ist
Erfahrungsberichte (3)
Obwohl ich wegen Kundeterminen einen Tag verpasst habe, fühle ich mich nun viel klarer in den Prozessen und Techniken, die in Machine Learning verwendet werden, und weiß besser, wann ich eine Methode gegenüber einer anderen anwenden sollte. Unsere aktuelle Herausforderung ist es nun, das Gelernte zu üben und auf unser Problemfeld anzuwenden.
Richard Blewett - Rock Solid Knowledge Ltd
Kurs - Machine Learning – Data science
Maschinelle Übersetzung
Ich mag, dass die Ausbildung sich auf Beispiele und Programmierung konzentriert hat. Ich dachte, es wäre unmöglich, so viel Inhalte in drei Tage zu packen, aber ich hatte mich getäuscht. Die Ausbildung umfasste viele Themen und alles wurde sehr detailiert durchgeführt (insbesondere die Abstimmung der Modellparameter - ich hätte nicht gedacht, dass dafür Zeit sein würde, und war sehr überrascht).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Kurs - Machine Learning – Data science
Maschinelle Übersetzung
Es zeigt viele Methoden mit vorbereiteten Skripten - sehr gut vorbereitete Materialien und einfach nachvollziehbar.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Kurs - Machine Learning – Data science
Maschinelle Übersetzung