SMACK-Stack für Data Science Schulung
SMACK ist eine Sammlung von Datenplattform-Software, nämlich Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra und Apache Kafka. Mit der SMACK-Stack können Benutzer Datenaufbereitungsplattformen erstellen und skalieren.
Diese von einem Instructor angeleitete Live-Schulung (online oder vor Ort) richtet sich an Data Scientists, die den SMACK-Stack verwenden möchten, um Datenaufbereitungsplattformen für Big-Data-Lösungen zu bauen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Eine Datenpipeline-Architektur für die Verarbeitung von Big Data zu implementieren.
- Eine Cluster-Infrastruktur mit Apache Mesos und Docker zu entwickeln.
- Daten mit Spark und Scala zu analysieren.
- Unstrukturierte Daten mit Apache Cassandra zu verwalten.
Kursformat
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxisübungen.
- Praktische Implementierung in einer Live-Lab-Umgebung.
Kursanpassungsmöglichkeiten
- Für eine angepasste Schulung für diesen Kurs kontaktieren Sie uns bitte, um einen Termin zu vereinbaren.
Schulungsübersicht
Einführung
Überblick über die SMACK-Stack-Technologie
- Was ist Apache Spark? Eigenschaften von Apache Spark
- Was ist Apache Mesos? Eigenschaften von Apache Mesos
- Was ist Apache Akka? Eigenschaften von Apache Akka
- Was ist Apache Cassandra? Eigenschaften von Apache Cassandra
- Was ist Apache Kafka? Eigenschaften von Apache Kafka
Scala-Sprache
- Scala-Syntax und -Struktur
- Scala-Steuerflussanweisungen
Vorbereitung der Entwicklungsumgebung
- Installieren und konfigurieren des SMACK Stack
- Installieren und konfigurieren von Docker
Apache Akka
- Verwenden von Schauspielern (Actors)
Apache Cassandra
- Erstellen einer Datenbank für Lesevorgänge
- Arbeiten mit Backups und Wiederherstellung
Connectoren
- Erstellen eines Streams
- Erstellen einer Akka-Anwendung
- Speichern von Daten mit Cassandra
- Überprüfen der Connectoren
Apache Kafka
- Arbeiten mit Clustern
- Erstellen, Veröffentlichen und Konsumieren von Nachrichten
Apache Mesos
- Zuweisen von Ressourcen
- Betreiben von Clustern
- Arbeiten mit Apache Aurora und Docker
- Betreiben von Diensten und Aufträgen (Jobs)
- Bereitstellen von Spark, Cassandra und Kafka auf Mesos
Apache Spark
- Verwalten von Datenflüssen
- Arbeiten mit RDDs und Dataframes
- Durchführen von Datenanalysen
Fehlerbehebung
- Behandeln von Dienst- und Fehlerausfällen
Zusammenfassung und Schlussfolgerungen
Voraussetzungen
- Ein Verständnis von Datenverarbeitungssystemen
Zielgruppe
- Data Scientists
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
SMACK-Stack für Data Science Schulung - Buchung
SMACK-Stack für Data Science Schulung - Anfrage
SMACK-Stack für Data Science - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (1)
sehr interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Ecosystem für Datenwissenschaftler
14 StundenDiese von einem Dozenten geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Datenwissenschaftler, die das Anaconda-Ökosystem zur Erfassung, Verwaltung und Bereitstellung von Paketen und Datenanalyse-Workflows auf einer einzigen Plattform nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Anaconda-Komponenten und -Bibliotheken zu installieren und zu konfigurieren.
- Die Kernkonzepte, Funktionen und Vorteile von Anaconda zu verstehen.
- Pakete, Umgebungen und Kanäle mit Anaconda Navigator zu verwalten.
- Conda, R und Python Pakete für Data Science und maschinelles Lernen verwenden.
- Sie lernen einige praktische Anwendungsfälle und Techniken für die Verwaltung mehrerer Datenumgebungen kennen.
Big Data Business Intelligence for Telecom & Communication Service Providers
35 StundenÜberblick
Communications Service Provider (CSP) stehen unter Druck, um die Kosten zu senken und das durchschnittliche Einkommen pro Benutzer (ARPU) zu maximieren, während eine ausgezeichnete Kundenerfahrung gewährleistet wird, aber Datenvolumen weiter wachsen. Der weltweite mobile Datenverkehr wird bei einer kombinierten jährlichen Wachstumsrate (CAGR) von 78 Prozent bis 2016 auf 10,8 exabytes pro Monat wachsen.
Währenddessen generieren CSPs große Datenvolumen, einschließlich Call Details Records (CDR), Netzwerkdaten und Kundendaten. Unternehmen, die diese Daten vollumfänglich nutzen, gewinnen einen wettbewerbsfähigen Rand. Laut einer jüngsten Umfrage der The Economist Intelligence Unit genießen Unternehmen, die Datenorientierte Entscheidungsfindung nutzen, eine Produktivitätserhöhung von 5-6%. Doch 53% der Unternehmen nutzen nur die Hälfte ihrer wertvollen Daten, und ein Viertel der Befragten bemerkte, dass große Mengen nützlicher Daten unvergesslich sind. Die Datenvolume sind so hoch, dass manuelle Analyse unmöglich ist, und die meisten Legacy-Software-Systeme können nicht aufrechterhalten, was zu wertvollen Daten führt, die abgelehnt oder ignoriert werden.
Mit Big Data & Analytics’ High-Speed, scalable Big Data-Software können CSPs alle ihre Daten für bessere Entscheidungsfindung in weniger Zeit minieren. Verschiedene Big Data Produkte und Techniken bieten eine End-to-End-Software-Plattform für die Sammlung, Vorbereitung, Analyse und Präsentation von Einsichten aus großen Daten. Anwendungsbereiche umfassen Netzwerkleistungsüberwachung, Betrugdetektion, Kundenschurndetektion und Kreditrisikoanalyse. Big Data & Analytics-Produkte schaal, um Terabytes von Daten zu verarbeiten, aber die Implementierung solcher Tools erfordert eine neue Art von Cloud-basiertes Datenbank-System wie Hadoop oder massive schaal parallele Computing-Prozessor (KPU usw.)
Dieser Kurs arbeitet auf Big Data BI für Telco umfasst alle aufstrebenden neuen Bereiche, in denen CSPs für Produktivitätsgewinnung und die Eröffnung neuer Geschäftsausgabenströme investieren. Der Kurs bietet eine vollständige 360 Grad Überblick Big Data BI in Telco, so dass Entscheidungsträger und Manager eine sehr breite und umfassende Überblick über die Möglichkeiten Big Data BI in Telco für Produktivität und Einkommensgewinnung haben können.
Kursziele
Das Hauptziel des Kurses ist es, neue Big Data Business Intelligence-Techniken in 4 Sektoren Telecom Business (Marketing/Sales, Network Operation, Financial Operation und Customer Relation Management) einzuführen. Die Studierenden werden eingeführt, um zu folgen:
- Einführung zu Big Data-was ist 4Vs (Volumen, Geschwindigkeit, Vielfalt und Wahrscheinlichkeit) in Big Data- Generation, Extraction und Management aus Telco Perspektive
- Wie Big Data Analytik unterscheidet sich von Erbe-Datenanalytik
- In-house Begründung von Big Data -Telco Perspektive
- Einführung in Hadoop Ökosystem- Bekanntschaft mit allen Hadoop Tools wie Hive, Pig, SPARC –Wenn und wie sie verwendet werden, um das Problem zu lösen Big Data
- Wie Big Data zur Analyse für Analyse-Tool-Wie Business Analysis’s können ihre Schmerzpunkte der Sammlung und Analyse von Daten durch integrierte Hadoop Dashboard-Ansatz reduzieren
- Grundlegende Einführung in Insight-Analysen, Visualisierungsanalysen und Predictive-Analysen für Telco
- Customer Churn-Analytics und Big Data-how Big Data-Analytics können Customer Churn und Kundenunzufriedenheit in Telco-Case-Studien reduzieren
- Netzwerkfehler- und Servicefehleranalyse aus Netzwerkmetadata und IPDR
- Finanzanalyse - Betrug, Wastage und ROI-Schätzung aus Verkaufs- und Betriebsdaten
- Kundenaufnahme-Problem-Zielmarketing, Kundensegmentation und Cross-Sales von Verkaufsdaten
- Einführung und Zusammenfassung aller Big Data analytischen Produkte und wo sie in den analytischen Raum von Telco passen
- Schlussfolgerung - wie man Schritt für Schritt einen Ansatz zur Einführung Big Data Business Intelligence in Ihre Organisation einnehmen kann
Zielgruppe
- Netzwerkverkehr, Finanzmanager, CRM-Manager und Top-IT-Manager im Telco CIO-Büro.
- Business Analytiker in Telco
- CFO Büro-Manager / Analysten
- Operationsmanager
- QA Manager
Eine praktische Einführung in die Datenwissenschaft
35 StundenDie Teilnehmer, die diese Schulung absolvieren, erhalten ein praktisches, praxisnahes Verständnis von Data Science und den damit verbundenen Technologien, Methoden und Werkzeugen.
Die Teilnehmer haben die Möglichkeit, dieses Wissen durch praktische Übungen in die Praxis umzusetzen. Die Interaktion in der Gruppe und das Feedback des Kursleiters sind ein wichtiger Bestandteil des Kurses.
Der Kurs beginnt mit einer Einführung in die grundlegenden Konzepte von Data Science und geht dann auf die in Data Science verwendeten Werkzeuge und Methoden ein.
Teilnehmerkreis
- Entwickler
- Technische Analysten
- IT-Berater
Format des Kurses
- Teilweise Vorlesung, teilweise Diskussion, Übungen und umfangreiche praktische Übungen
Hinweis
- Wenn Sie eine maßgeschneiderte Schulung für diesen Kurs wünschen, nehmen Sie bitte Kontakt mit uns auf, um dies zu vereinbaren.
Datenwissenschaft für die Analyse großer Datenmengen
35 StundenBig Data sind Datenmengen, die so umfangreich und komplex sind, dass herkömmliche Anwendungssoftware für die Datenverarbeitung nicht ausreicht, um mit ihnen umzugehen. Zu den großen Datenherausforderungen gehören Datenerfassung, Datenspeicherung, Datenanalyse, Suche, Freigabe, Übertragung, Visualisierung, Abfrage, Aktualisierung und Datenschutz.
Data Science-Wissenswertes für Marketing- und Vertriebsprofis
21 StundenDieser Kurs richtet sich an Marketing- und Verkaufsfachleute, die tiefer in die Anwendung von Data Science im Marketing/Vertrieb eintauchen möchten. Der Kurs bietet eine detaillierte Abdeckung verschiedener Data-Science-Techniken zur Nutzung für „Upselling“, „Cross-Selling“, Marksegmentierung, Markenbildung und CLV.
Unterschied zwischen Marketing und Vertrieb - Wie unterscheiden sich Verkauf und Marketing?
In einfachen Worten kann der Verkauf als ein Prozess beschrieben werden, der sich auf Einzelpersonen oder kleine Gruppen konzentriert. Das Marketing richtet sich hingegen an größere Gruppen oder die allgemeine Öffentlichkeit. Marketing umfasst Forschung (Bedürfnisse der Kunden identifizieren), Produktentwicklung (innovative Produkte erzeugen) und Werbung für das Produkt sowie seine Verbreitung bei den Verbrauchern. So bedeutet Marketing die Erstellung von Anfragen oder potenziellen Kunden. Sobald das Produkt auf dem Markt ist, ist es die Aufgabe des Vertriebsmitarbeiters, den Kunden dazu zu überreden, das Produkt zu kaufen. Der Verkauf bedeutet, dass Anfragen oder potenzielle Kunden in Käufe und Bestellungen umgewandelt werden, während Marketing langfristige Ziele verfolgt und der Verkauf kurzfristige Ziele hat.
Jupyter für Datenwissenschaftsteams
7 StundenDieser von einem Trainer geleitete Live-Workshop (online oder vor Ort) führt in das Konzept der kollektiven Entwicklung im Bereich Data Science ein und zeigt, wie Jupyter zum Verfolgen und Teilnehmen am "Lebenszyklus eines berechnungsbasierten Ideen" als Team verwendet werden kann. Dabei wird den Teilnehmern die Erstellung eines Beispiels für einen Datenwissenschaft-Projekt auf der Grundlage des Jupyter-Ekosystems vorgestellt.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein, Folgendes zu tun:
- Jupyter zu installieren und einzurichten, einschließlich der Erstellung und Integration eines Team-Repositories auf Git.
- Mit Funktionen von Jupyter wie Erweiterungen, interaktiven Widgets, Multiuser-Modus und mehr Projekte zur Zusammenarbeit zu ermöglichen.
- Jupyter Notebooks mit Teammitgliedern zu erstellen, freizugeben und zu organisieren.
- Scala, Python, R auszuwählen, um Code gegen Big Data Systeme wie Apache Spark über die Jupyter-Schnittstelle zu schreiben und auszuführen.
Kaggle
14 StundenDiese von einem Dozenten geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Datenwissenschaftler und -entwickler, die Data Science mit Kaggle erlernen und ihre Karriere ausbauen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Über Datenwissenschaft und maschinelles Lernen lernen.
- Datenanalytik erforschen.
- Lernen Sie über Kaggle und wie es funktioniert.
MATLAB Grundlagen, Datenwissenschaft und Berichtserstellung
35 StundenIm ersten Teil dieser Schulung behandeln wir die Grundlagen von MATLAB und seine Funktion als Sprache und Plattform. Dazu gehört eine Einführung in die MATLAB-Syntax, Arrays und Matrizen, Datenvisualisierung, Skriptentwicklung und objektorientierte Prinzipien.
Im zweiten Teil wird gezeigt, wie MATLAB für Data Mining, maschinelles Lernen und prädiktive Analysen verwendet werden kann. Um den Teilnehmern eine klare und praktische Perspektive des Ansatzes und der Leistungsfähigkeit von MATLAB zu vermitteln, ziehen wir Vergleiche zwischen der Verwendung von MATLAB und der Verwendung anderer Tools wie Tabellenkalkulationen, C, C++ und Visual Basic.
Im dritten Teil der Schulung lernen die Teilnehmer, wie sie ihre Arbeit durch Automatisierung der Datenverarbeitung und Berichterstellung rationalisieren können.
Während des gesamten Kurses werden die Teilnehmer die erlernten Ideen durch praktische Übungen in einer Laborumgebung in die Praxis umsetzen. Am Ende des Kurses werden die Teilnehmer die Möglichkeiten von MATLAB genau kennen und in der Lage sein, sie zur Lösung realer Data-Science-Probleme sowie zur Rationalisierung ihrer Arbeit durch Automatisierung einzusetzen.
Während des gesamten Kurses werden Beurteilungen durchgeführt, um den Fortschritt zu messen.
Format des Kurses
- Der Kurs umfasst theoretische und praktische Übungen, einschließlich Falldiskussionen, Code-Beispielen und praktischer Implementierung.
Hinweis
- Die praktischen Übungen werden auf der Grundlage von vorab vereinbarten Musterdatenberichten durchgeführt. Wenn Sie spezielle Anforderungen haben, kontaktieren Sie uns bitte, um dies zu vereinbaren.
Machine Learning für Data Science mit Python
21 StundenDieses von einem Dozenten geleitete, live-Training in Deutschland (online oder vor Ort) richtet sich an fortgeschrittene Datenanalytiker, Entwickler oder aspirierende Data Scientists, die maschinelles Lernen in Python anwenden möchten, um Erkenntnisse zu gewinnen, Vorhersagen zu treffen und datengestützte Entscheidungen zu automatisieren.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Schlüsselmaschinelles Lernen Paradigmen zu verstehen und zu differenzieren.
- Daten vorzubereiten und Modellbewertungsmetriken zu erkunden.
- Maschinelle Lernalgorithmen anzuwenden, um reale Datenprobleme zu lösen.
- Python-Bibliotheken und Jupyter-Notebooks für die praktische Entwicklung zu verwenden.
- Modelle zur Vorhersage, Klassifizierung, Empfehlung und Clustering aufzubauen.
Beschleunigung von Python Pandas Arbeitsabläufen mit Modin
14 StundenDiese von einem Trainer geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die Modin verwenden möchten, um parallele Berechnungen mit Pandas für eine schnellere Datenanalyse zu erstellen und zu implementieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Entwicklung von Pandas-Workflows in großem Maßstab mit Modin zu beginnen.
- die Funktionen, die Architektur und die Vorteile von Modin zu verstehen.
- Die Unterschiede zwischen Modin, Dask und Ray kennen.
- Schnellere Durchführung von Pandas-Vorgängen mit Modin.
- Implementierung der gesamten Pandas API und Funktionen.
Python-Programmierung für Finanzen
35 StundenPython ist eine Programmiersprache, die in der Finanzbranche große Popularität erlangt hat. Angenommen von den größten Investmentbanken und Hedgefonds, wird es verwendet, um eine breite Palette von Finanzanwendungen aufzubauen, die von Kernhandelsprogrammen bis hin zu Risikomanagementsystemen reichen.
In diesem von Lehrern geleiteten Live-Training lernen die Teilnehmer, wie sie mit Python praktische Anwendungen zur Lösung einer Reihe spezifischer finanzbezogener Probleme entwickeln.
Am Ende dieser Schulung können die Teilnehmer:
- Die Grundlagen der Python-Programmiersprache verstehen
- Die besten Entwicklungstools zum Erstellen von Finanzanwendungen in Python herunterladen, installieren und warten
- Geeignete Python-Pakete und Programmiertechniken auswählen und nutzen, um Finanzdaten aus verschiedenen Quellen (CSV, Excel, Datenbanken, Web usw.) zu organisieren, zu visualisieren und zu analysieren
- Anwendungen entwickeln, die Probleme im Zusammenhang mit Asset Allocation, Risikoanalyse, Investment Performance und mehr lösen
- Eine Python-Anwendung beheben, integrieren, bereitstellen und optimieren
Publikum
- Entwickler
- Analysten
- Quants
Format des Kurses
- Teil Vortrag, Teil Diskussion, Übungen und intensive praktische Anwendung
Hinweis
- Dieses Training zielt darauf ab, Lösungen für einige der Hauptprobleme zu bieten, mit denen Finanzexperten konfrontiert sind. Wenn Sie jedoch ein bestimmtes Thema, Tool oder eine bestimmte Technik haben, die Sie vertiefen oder weiter ausführen möchten, kontaktieren Sie uns bitte, um dies zu vereinbaren.
Python in der Datenanalyse
35 StundenDer Schulungskurs wird den Teilnehmern helfen, sich auf die Webanwendungsentwicklung unter Verwendung von Python-Programmierung mit Datenanalyse vorzubereiten. Solche Datenvisualisierungen sind ein großartiges Werkzeug für die Top-Management-Ebene bei Entscheidungsfindung.
GPU-basierte Datenwissenschaft mit NVIDIA RAPIDS
14 StundenDieses von einem Dozenten geführte, live-Training in Deutschland (online oder vor Ort) richtet sich an Data Scientists und Entwickler, die RAPIDS verwenden möchten, um GPU-beschleunigte Datenpipelines, Workflows und Visualisierungen zu erstellen, wobei maschinelles Lernen mit Algorithmen wie XGBoost, cuML usw. angewendet wird.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- Die notwendige Entwicklungsumgebung zum Erstellen von Datenmodellen mit NVIDIA RAPIDS einzurichten.
- Die Funktionen, Komponenten und Vorteile von RAPIDS zu verstehen.
- GPUs zur Beschleunigung von Daten- und Analysepipelines von Anfang bis Ende zu nutzen.
- GPU-beschleunigte Datenvorbereitung und ETL mit cuDF und Apache Arrow zu implementieren.
- Maschinelles Lernen mit XGBoost- und cuML-Algorithmen zu erlernen.
- Datenvisualisierungen zu erstellen und Graphanalysen mit cuXfilter und cuGraph durchzuführen.
Python und Spark für Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Deutschland lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Stratio: Rocket und Intelligence Module mit PySpark
14 StundenStratio ist eine datenzentrierte Plattform, die Big Data, KI und Governance in ein einziges Lösungsprodukt integriert. Die Module Rocket und Intelligence ermöglichen eine schnelle Datenexploration, Transformation und erweiterte Analysen in Unternehmensumgebungen.
Dieser von einem Dozenten geleitete Live-Kurs (online oder vor Ort) richtet sich an fortgeschrittene Datenprofessionals, die die Module Rocket und Intelligence effektiv mit PySpark nutzen möchten. Der Schwerpunkt liegt auf Schleifenstrukturen, benutzerdefinierten Funktionen und erweiterten Datenlogiken.
Am Ende dieses Trainings werden die Teilnehmer in der Lage sein:
- In der Stratio-Plattform mithilfe der Module Rocket und Intelligence zu navigieren und zu arbeiten.
- PySpark im Kontext von Datenimport, Transformation und Analyse anzuwenden.
- Schleifen und bedingte Logiken zur Steuerung von Datenaufgaben und Merkmalsingenieurprozessen zu verwenden.
- Benutzerdefinierte Funktionen (UDFs) für wiederverwendbare Datenoperationen in PySpark zu erstellen und zu verwalten.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxis.
- Hands-on-Implementierung in einer live-Lab-Umgebung.
Optionen zur Anpassung des Kurses
- Bei Interesse an einer angepassten Ausbildung für diesen Kurs, kontaktieren Sie uns bitte, um eine Anfrage zu stellen.