Schulungsübersicht

Einführung in Predictive AIOps

  • Überblick über die vorausschauende Analyse in IT-Betrieben
  • Datenquellen für Vorhersagen (Logfiles, Metriken, Ereignisse)
  • Konzepte zur Zeitreihenprognose und Anomalieerkennung

Gestaltung von Vorhersagemodellen für Incidents

  • Historische Vorfälle und Systemverhalten kennzeichnen
  • Auswahl und Training von Modellen (z. B., LSTM, Random Forest, AutoML)
  • Bewertung der Modellleistung und Handhabung von Falschpositiven

Datensammlung und Merkmalsextraktion

  • Importieren und Ausrichten von Log- und Metrikdaten für das Modelleingang
  • Merkmalserkennung aus strukturierten und unstrukturierten Daten
  • Handhabung von Rauschen und fehlenden Daten in den Betriebspipelines

Automatisierung der Ursachenforschung (RCA)

  • Graphbasierte Korrelation von Diensten und Infrastruktur
  • Verwendung von ML zur Schlussfolgerung von wahrscheinlichen Ursachen aus Ereignisketten
  • Visualisierung von RCA mit topologiebewussteten Dashboards

Beseitigung und Workflow Automation

  • Integration in Automatisierungsplattformen (z. B., Ansible, Rundeck)
  • Auslösung von Rollbacks, Neustarts oder Traffic-Umleitung
  • Dokumentation und Überprüfung automatisierter Interventionsmaßnahmen

Skalierung intelligenter AIOps Pipelines

  • MLOps für die Beobachtbarkeit: Retrainieren und Modellversionierung
  • Realzeitvorhersagen auf verteilten Knoten durchführen
  • Beste Praktiken zur Bereitstellung von AIOps in Produktionsumgebungen

Fallstudien und praktische Anwendungen

  • Analyse realer Vorfalldaten mit vorausschauenden AIOps-Modellen
  • Bereitstellung von RCA-Pipelines mit synthetischen und Produktionsdaten
  • Auswertung von Branchennutzungsfällen: Cloud-Ausfälle, Instabilität von Microservices, Netzwerkdegradationen

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Erfahrung mit Überwachungssystemen wie Prometheus oder ELK
  • Praxiserfahrung mit Python und grundlegendem maschinellem Lernen
  • Bekanntschaft mit Workflowen der Vorfallverwaltung

Zielgruppe

  • Aufgeklärte Site Reliability Engineers (SREs)
  • IT-Automatisierungsarchitekten
  • DevOps und Leiter von Observability-Plattformen
 14 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Kommende Kurse

Verwandte Kategorien