Schulungsübersicht

Einführung in AIOps mit Open-Source-Tools

  • Überblick über die Konzepte und Vorteile von AIOps
  • Prometheus und Grafana im Observability-Stack
  • Wo ML in AIOps Platz hat: prädiktive vs. reaktive Analytics

Einrichtung von Prometheus und Grafana

  • Installation und Konfiguration von Prometheus für die Erhebung zeitbasierter Datenreihen
  • Erstellen von Dashboards in Grafana mit Echtzeitmetriken
  • Untersuchen von Exportern, Relabeling und Dienstentdeckung

Datenvorverarbeitung für ML

  • Auswählen und Transformieren von Prometheus-Metriken
  • Vorbereiten von Datensätzen für Anomaliedetektion und Vorhersage
  • Verwendung der Transformationen in Grafana oder Pipeline in Python

Anwendungsfall Machine Learning zur Anomaliedetektion

  • Grundlegende ML-Modelle für Ausreißererkennung (z.B. Isolation Forest, One-Class SVM)
  • Training und Bewertung von Modellen auf Zeitreihendaten
  • Visualisieren von Anomalien in Grafana-Dashboards

Forecasting Metriken mit ML

  • Erstellen einfacher Vorhersagemodelle (ARIMA, Prophet, Einführung in LSTM)
  • Vorhersage von Systemlast oder Ressourcenverwendung
  • Verwenden von Vorhersagen für frühe Warnungen und Skalierungsfälle

Integrieren von ML mit Alerting und Automatisierung

  • Definieren von Alarmregeln basierend auf ML-Ausgabe oder Schwellenwerten
  • Verwendung von Alertmanager und Benachrichtigungsrouting
  • Auslösen von Skripten oder Automatisierungsworfkflows bei Anomalieerkennung

Skalieren und Operationalisieren von AIOps

  • Integrieren externer Observability-Tools (z.B. ELK Stack, Moogsoft, Dynatrace)
  • Operationalisierung von ML-Modellen in Observability-Pipelines
  • Best Practices für AIOps bei Skalierung

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Ein Verständnis von Systemüberwachung und Observability-Konzepten
  • Erfahrung mit Grafana oder Prometheus
  • Vertrautheit mit Python und den Grundprinzipien der Maschinellem Lernen

Zielgruppe

  • Observability-Engineer
  • Infrastrukturteams und DevOps-Teams
  • Architekten von Überwachungsplattformen und Site Reliability Engineers (SREs)
 14 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Kommende Kurse

Verwandte Kategorien