Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Einführung in vorhersagebasierte AIOps
- Überblick über vorausschauende Analysemethoden im IT-Betrieb
- Datenquellen für Vorhersagen (Logs, Metriken, Ereignisse)
- Schlüsselkonzepte in der Zeitreihenprognose und Anomalieerkennung
Entwurf von Vorfallvorhersagemodellen
- Kennzeichnen historischer Vorfälle und Systemverhaltensweisen
- Wahl und Training von Modellen (z.B. LSTM, Random Forest, AutoML)
- Bewertung der Modellleistung und Behandlung von Fehlalarmen
Datenbeschaffung und Feature Engineering
- Aufnahme und Ausrichtung von Log- und Metrikdaten für die Modellierung
- Merkmalsextraktion aus strukturierten und unstrukturierten Daten
- Behandlung von Rauschen und fehlenden Daten in operativen Pipelines
Automatisierung der Ursachenanalyse (RCA)
- Graphbasierte Korrelation von Diensten und Infrastruktur
- Verwendung von ML, um wahrscheinliche Ursachen aus Ereignisketten zu inferieren
- Visualisierung der RCA mit topologiebasierten Dashboards
Fehlerbehebung und Workflow-Automatisierung
- Integration in Automatisierungsplattformen (z.B. Ansible, Rundeck)
- Auslösung von Rollbacks, Neustarts oder Verkehrsleitungen
- Dokumentation und Überprüfung automatisierter Eingriffe
Skalierung intelligenter AIOps-Pipelines
- MLOps für Observability: Retraining und Modellversionierung
- Durchführung von Vorhersagen in Echtzeit über verteilte Knoten hinweg
- Best Practices für die Bereitstellung von AIOps in Produktionsumgebungen
Fallstudien und praktische Anwendungen
- Analyse realer Vorfall-Daten mit vorhersagebasierten AIOps-Modellen
- Bereitstellung von RCA-Pipelines mit synthetischen und Produktionsdaten
- Überblick über Branchenanwendungen: Cloud-Ausfälle, Instabilität von Microservices, Netzwerkdegradationen
Zusammenfassung und nächste Schritte
Voraussetzungen
- Erfahrung mit Überwachungssystemen wie Prometheus oder ELK
- Praktische Kenntnisse von Python und maschinellen Lernen
- Vertrautheit mit Vorfallmanagement-Abläufen
Zielgruppe
- Senior Site Reliability Engineers (SREs)
- IT-Automatisierungsarchitekten
- DevOps- und Observability-Plattformleiter
14 Stunden