Vielen Dank für die Zusendung Ihrer Anfrage! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Vielen Dank, dass Sie Ihre Buchung abgeschickt haben! Eines unserer Teammitglieder wird Sie in Kürze kontaktieren.
Schulungsübersicht
Entwerfen einer offenen AIOps-Architektur
- Übersicht über die wichtigen Komponenten in offenen AIOps-Pipelines
- Datenfluss vom Einlesen bis zur Warnung
- Vergleich und Integration von Tools
Datensammlung und -aggregation
- Einlesen zeitlicher Serien mit Prometheus
- Capturing Logs with Logstash and Beats (Anmerkung: Dieser Teil wurde nicht übersetzt, da "Capturing" nicht vollständig ist)
- Vereinheitlichung von Daten für die Quervergleichung
Erstellen von Observability-Dashboards
- Visualisierung von Metriken mit Grafana
- Bauen Sie Kibana-Dashboards für Log-Analysen
- Verwenden Sie Elasticsearch-Abfragen, um operativ einzuholen
Auffinden von Anomalien und Vorhersage von Vorfällen
- Exportieren der Observability-Daten zu Python-Pipelines
- Training von ML-Modellen für Outlier-Erkennung und Prognose
- Bereitstellen von Modellen zur realzeitfähigen Inferenz in der Observability-Pipeline
Warnen und Automatisieren mit Open Tools
- Erstellen Sie Prometheus-Warntools und Alertmanager-Routing
- Auslösen von Skripten oder API-Workflows für die automatische Reaktion
- Nutzung von open-source-Orchestrierungstools (z.B. Ansible, Rundeck)
Integration und Skalierungsüberlegungen
- Bearbeitung von Hochvolumen-Einlesungen und Langzeitbeibehaltung
- Sicherheit und Zugriffskontrolle in open-source-Stacks
- Skalieren jeder Schicht unabhängig: Einlesen, Verarbeitung, Warnen
Echte Anwendungen und Erweiterungen
- Fallstudien: Leistungsoptimierung, Ausfallvermeidung und Kostenoptimierung
- Erweitern der Pipelines mit Spurwerkzeugen oder Dienstgraphen
- Beste Praktiken für die Betriebsführung und -wartung von AIOps in der Produktion
Zusammenfassung und nächste Schritte
Voraussetzungen
- Erfahrung mit Observabilitätswerkzeugen wie Prometheus oder ELK
- Praktische Kenntnisse von Python und den Grundlagen des maschinellen Lernens
- Vorstellung der IT-Operationen und Warnungsabläufe
Zielgruppe
- Erweiterte Site Reliability Engineers (SREs)
- Dateningenieure in den Operationen
- DevOps-Plattenvorstände und Infrastrukturarchitekten
14 Stunden