SMACK Stack for Data Science Schulung
SMACK ist eine Sammlung von Datenplattform-Software, nämlich Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, und Apache Kafka. Mit dem SMACK Stack können Benutzer Datenverarbeitungsplattformen erstellen und skalieren.
Dieser Instructor-Leid, Live-Training (online oder on-site) richtet sich an Datenwissenschaftler, die die SMACK Stack verwenden möchten, um Datenverarbeitungsplattformen für Big Data-Lösungen zu bauen.
Am Ende dieser Ausbildung können die Teilnehmer:
- Implementieren Sie eine Datenträgerarchitektur für die Verarbeitung großer Daten.
- Entwickeln Sie eine Clusterinfrastruktur mit Apache Mesos und Docker.
- Analysieren Sie Daten mit Spark und Scala.
- Verwaltung unstrukturierter Daten mit Apache Cassandra.
Format des Kurses
- Interaktive Unterricht und Diskussion.
- Viele Übungen und Übungen.
- Hand-on Implementierung in einem Live-Lab-Umfeld.
Kursanpassungsoptionen
- Um eine benutzerdefinierte Ausbildung für diesen Kurs zu beantragen, wenden Sie sich bitte an uns, um zu arrangieren.
Schulungsübersicht
Einführung
SMACK Stack Übersicht
- Was ist Apache Spark? Apache Spark-Funktionen
- Was ist Apache Mesos? Apache Mesos-Funktionen
- Was ist Apache Akka? Apache Akka-Funktionen
- Was ist Apache Cassandra? Apache Cassandra-Merkmale
- Was ist Apache Kafka? Apache Kafka-Funktionen
Scala Sprache
- Scala Syntax und Struktur
- Scala Kontrollfluss
Vorbereiten der Entwicklungsumgebung
- Installieren und Konfigurieren des SMACK-Stacks
- Installieren und Konfigurieren Docker
Apache Akka
- Einsatz von Schauspielern
Apache Cassandra
- Erstellen einer Datenbank für Lesevorgänge
- Arbeiten mit Backups und Wiederherstellung
Steckverbinder
- Erstellen eines Streams
- Aufbau einer Akka-Anwendung
- Speichern von Daten mit Cassandra
- Überprüfen von Konnektoren
Apache Kafka
- Arbeiten mit Clustern
- Erstellen, Veröffentlichen und Konsumieren von Nachrichten
Apache Mesos
- Zuweisung von Ressourcen
- Ausführen von Clustern
- Arbeiten mit Apache Aurora und Docker
- Ausführen von Diensten und Aufträgen
- Einsatz von Spark, Cassandra und Kafka auf Mesos
Apache Spark
- Verwaltung von Datenflüssen
- Arbeiten mit RDDs und Dataframes
- Durchführen von Datenanalysen
Fehlersuche
- Umgang mit dem Ausfall von Diensten und Fehlern
Zusammenfassung und Schlussfolgerung
Voraussetzungen
- Verständnis für Datenverarbeitungssysteme
Publikum
- Datenwissenschaftler
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
SMACK Stack for Data Science Schulung - Buchung
SMACK Stack for Data Science Schulung - Anfrage
SMACK Stack for Data Science - Beratungsanfrage
Erfahrungsberichte (1)
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Kommende Kurse
Kombinierte Kurse
Kaggle
14 StundenDieses von einem Trainer geleitete Live-Training (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die Data Science erlernen und ihre Karriere mit Kaggle aufbauen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen Sie etwas über Datenwissenschaft und maschinelles Lernen.
- Erforschen Sie die Datenanalyse.
- Lernen Sie über Kaggle und wie es funktioniert.
Accelerating Python Pandas Workflows with Modin
14 StundenDiese von einem Dozenten geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler und -entwickler, die Modin verwenden möchten, um parallele Berechnungen mit Pandas für eine schnellere Datenanalyse zu erstellen und zu implementieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Die notwendige Umgebung einrichten, um mit der Entwicklung von Pandas Workflows in großem Umfang mit Modin zu beginnen.
- Verstehen Sie die Funktionen, die Architektur und die Vorteile von Modin.
- Kennen Sie die Unterschiede zwischen Modin, Dask und Ray.
- Mit Modin Pandas Operationen schneller durchführen.
- Implementieren Sie die gesamte Pandas API und Funktionen.
GPU Data Science with NVIDIA RAPIDS
14 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die mit RAPIDS GPU-beschleunigte Datenpipelines, Workflows und Visualisierungen erstellen und dabei Algorithmen für maschinelles Lernen wie XGBoost, cuML usw. anwenden möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Einrichten der erforderlichen Entwicklungsumgebung zur Erstellung von Datenmodellen mit NVIDIA RAPIDS.
- Verstehen Sie die Funktionen, Komponenten und Vorteile von RAPIDS.
- Grafikprozessoren zur Beschleunigung von End-to-End-Daten- und Analysepipelines nutzen.
- Implementieren Sie GPU-beschleunigte Datenaufbereitung und ETL mit cuDF und Apache Arrow.
- Lernen Sie, wie man maschinelle Lernaufgaben mit XGBoost und cuML-Algorithmen durchführt.
- Erstellen Sie Datenvisualisierungen und führen Sie Graphanalysen mit cuXfilter und cuGraph durch.
Anaconda Ecosystem for Data Scientists
14 StundenDiese von einem Dozenten geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler, die das Anaconda-Ökosystem zur Erfassung, Verwaltung und Bereitstellung von Paketen und Datenanalyse-Workflows auf einer einzigen Plattform nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und Konfigurieren von Anaconda-Komponenten und -Bibliotheken.
- Die Kernkonzepte, Funktionen und Vorteile von Anaconda verstehen.
- Pakete, Umgebungen und Kanäle mit dem Anaconda Navigator verwalten.
- Conda, R und Python-Pakete für Data Science und maschinelles Lernen nutzen.
- Lernen Sie einige praktische Anwendungsfälle und Techniken für die Verwaltung mehrerer Datenumgebungen kennen.
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen Sie, wie Sie Spark mit Python verwenden, um Big Data zu analysieren.
- Arbeiten Sie an Übungen, die reale Fälle nachbilden.
- Verwenden Sie verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing-Ansatz (auch bekannt als Graph Analytics) zu verarbeiten. Wir beginnen mit einem breiten Überblick und gehen dann anhand einer Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen auf spezifische Tools ein.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- Das beste Framework für eine bestimmte Aufgabe auswählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks)
- Implementieren Sie Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Betrachten Sie reale Big-Data-Probleme in Form von Graphen, Prozessen und Traversalen.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihren Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 StundenÜberblick
Communications Service Provider (CSP) stehen unter Druck, um die Kosten zu senken und das durchschnittliche Einkommen pro Benutzer (ARPU) zu maximieren, während eine ausgezeichnete Kundenerfahrung gewährleistet wird, aber Datenvolumen weiter wachsen. Der weltweite mobile Datenverkehr wird bei einer kombinierten jährlichen Wachstumsrate (CAGR) von 78 Prozent bis 2016 auf 10,8 exabytes pro Monat wachsen.
Währenddessen generieren CSPs große Datenvolumen, einschließlich Call Details Records (CDR), Netzwerkdaten und Kundendaten. Unternehmen, die diese Daten vollumfänglich nutzen, gewinnen einen wettbewerbsfähigen Rand. Laut einer jüngsten Umfrage der The Economist Intelligence Unit genießen Unternehmen, die Datenorientierte Entscheidungsfindung nutzen, eine Produktivitätserhöhung von 5-6%. Doch 53% der Unternehmen nutzen nur die Hälfte ihrer wertvollen Daten, und ein Viertel der Befragten bemerkte, dass große Mengen nützlicher Daten unvergesslich sind. Die Datenvolume sind so hoch, dass manuelle Analyse unmöglich ist, und die meisten Legacy-Software-Systeme können nicht aufrechterhalten, was zu wertvollen Daten führt, die abgelehnt oder ignoriert werden.
Mit Big Data & Analytics’ High-Speed, scalable Big Data-Software können CSPs alle ihre Daten für bessere Entscheidungsfindung in weniger Zeit minieren. Verschiedene Big Data Produkte und Techniken bieten eine End-to-End-Software-Plattform für die Sammlung, Vorbereitung, Analyse und Präsentation von Einsichten aus großen Daten. Anwendungsbereiche umfassen Netzwerkleistungsüberwachung, Betrugdetektion, Kundenschurndetektion und Kreditrisikoanalyse. Big Data & Analytics-Produkte schaal, um Terabytes von Daten zu verarbeiten, aber die Implementierung solcher Tools erfordert eine neue Art von Cloud-basiertes Datenbank-System wie Hadoop oder massive schaal parallele Computing-Prozessor (KPU usw.)
Dieser Kurs arbeitet auf Big Data BI für Telco umfasst alle aufstrebenden neuen Bereiche, in denen CSPs für Produktivitätsgewinnung und die Eröffnung neuer Geschäftsausgabenströme investieren. Der Kurs bietet eine vollständige 360 Grad Überblick Big Data BI in Telco, so dass Entscheidungsträger und Manager eine sehr breite und umfassende Überblick über die Möglichkeiten Big Data BI in Telco für Produktivität und Einkommensgewinnung haben können.
Kursziele
Das Hauptziel des Kurses ist es, neue Big Data Business Intelligence-Techniken in 4 Sektoren Telecom Business (Marketing/Sales, Network Operation, Financial Operation und Customer Relation Management) einzuführen. Die Studierenden werden eingeführt, um zu folgen:
- Einführung zu Big Data-was ist 4Vs (Volumen, Geschwindigkeit, Vielfalt und Wahrscheinlichkeit) in Big Data- Generation, Extraction und Management aus Telco Perspektive
- Wie Big Data Analytik unterscheidet sich von Erbe-Datenanalytik
- In-house Begründung von Big Data -Telco Perspektive
- Einführung in Hadoop Ökosystem- Bekanntschaft mit allen Hadoop Tools wie Hive, Pig, SPARC –Wenn und wie sie verwendet werden, um das Problem zu lösen Big Data
- Wie Big Data zur Analyse für Analyse-Tool-Wie Business Analysis’s können ihre Schmerzpunkte der Sammlung und Analyse von Daten durch integrierte Hadoop Dashboard-Ansatz reduzieren
- Grundlegende Einführung in Insight-Analysen, Visualisierungsanalysen und Predictive-Analysen für Telco
- Customer Churn-Analytics und Big Data-how Big Data-Analytics können Customer Churn und Kundenunzufriedenheit in Telco-Case-Studien reduzieren
- Netzwerkfehler- und Servicefehleranalyse aus Netzwerkmetadata und IPDR
- Finanzanalyse - Betrug, Wastage und ROI-Schätzung aus Verkaufs- und Betriebsdaten
- Kundenaufnahme-Problem-Zielmarketing, Kundensegmentation und Cross-Sales von Verkaufsdaten
- Einführung und Zusammenfassung aller Big Data analytischen Produkte und wo sie in den analytischen Raum von Telco passen
- Schlussfolgerung - wie man Schritt für Schritt einen Ansatz zur Einführung Big Data Business Intelligence in Ihre Organisation einnehmen kann
Zielgruppe
- Netzwerkverkehr, Finanzmanager, CRM-Manager und Top-IT-Manager im Telco CIO-Büro.
- Business Analytiker in Telco
- CFO Büro-Manager / Analysten
- Operationsmanager
- QA Manager
Data Science for Big Data Analytics
35 StundenBig Data sind Datenmengen, die so umfangreich und komplex sind, dass herkömmliche Anwendungssoftware für die Datenverarbeitung nicht ausreicht, um mit ihnen umzugehen. Zu den großen Datenherausforderungen gehören Datenerfassung, Datenspeicherung, Datenanalyse, Suche, Freigabe, Übertragung, Visualisierung, Abfrage, Aktualisierung und Datenschutz.
MATLAB Fundamentals, Data Science & Report Generation
35 StundenIm ersten Teil dieser Schulung behandeln wir die Grundlagen von MATLAB und seine Funktion als Sprache und Plattform. Dazu gehört eine Einführung in die MATLAB-Syntax, Arrays und Matrizen, Datenvisualisierung, Skriptentwicklung und objektorientierte Prinzipien.
Im zweiten Teil wird gezeigt, wie MATLAB für Data Mining, maschinelles Lernen und prädiktive Analysen verwendet werden kann. Um den Teilnehmern eine klare und praktische Perspektive des Ansatzes und der Leistungsfähigkeit von MATLAB zu vermitteln, ziehen wir Vergleiche zwischen der Verwendung von MATLAB und der Verwendung anderer Tools wie Tabellenkalkulationen, C, C++ und Visual Basic.
Im dritten Teil der Schulung lernen die Teilnehmer, wie sie ihre Arbeit durch Automatisierung der Datenverarbeitung und Berichterstellung rationalisieren können.
Während des gesamten Kurses werden die Teilnehmer die erlernten Ideen durch praktische Übungen in einer Laborumgebung in die Praxis umsetzen. Am Ende des Kurses werden die Teilnehmer die Möglichkeiten von MATLAB genau kennen und in der Lage sein, sie zur Lösung realer Data-Science-Probleme sowie zur Rationalisierung ihrer Arbeit durch Automatisierung einzusetzen.
Während des gesamten Kurses werden Beurteilungen durchgeführt, um den Fortschritt zu messen.
Format des Kurses
- Der Kurs umfasst theoretische und praktische Übungen, einschließlich Falldiskussionen, Code-Beispielen und praktischer Implementierung.
Hinweis
- Die praktischen Übungen werden auf der Grundlage von vorab vereinbarten Musterdatenberichten durchgeführt. Wenn Sie spezielle Anforderungen haben, kontaktieren Sie uns bitte, um dies zu vereinbaren.
Jupyter for Data Science Teams
7 StundenJupyter ist eine webbasierte, interaktive Open-Source-IDE und Rechenumgebung.
Diese von einem Ausbilder geleitete Live-Schulung (online oder vor Ort) führt in die Idee der kollaborativen Entwicklung in der Datenwissenschaft ein und zeigt, wie man Jupyter verwendet, um den "Lebenszyklus einer Berechnungsidee" zu verfolgen und als Team daran teilzunehmen. Sie führt die Teilnehmer durch die Erstellung eines Beispielprojekts der Datenwissenschaft, das auf dem Jupyter-Ökosystem basiert.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Jupyter zu installieren und zu konfigurieren, einschließlich der Erstellung und Integration eines Team-Repositorys auf Git.
- Jupyter-Funktionen wie Erweiterungen, interaktive Widgets, Mehrbenutzermodus und mehr zu nutzen, um die Zusammenarbeit an Projekten zu ermöglichen.
- Erstellen, teilen und organisieren Sie Jupyter Notebooks mit Teammitgliedern.
- Wählen Sie aus Scala, Python, R, um Code gegen Big-Data-Systeme wie Apache Spark zu schreiben und auszuführen, alles über die Jupyter-Schnittstelle.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxis.
- Praktische Umsetzung in einer Live-Laborumgebung.
Optionen zur Kursanpassung
- Das Jupyter Notebook unterstützt über 40 Sprachen, einschließlich R, Python, Scala, Julia, etc. Wenn Sie diesen Kurs an die Sprache(n) Ihrer Wahl anpassen möchten, nehmen Sie bitte Kontakt mit uns auf.
F# for Data Science
21 StundenPython Programming for Finance
35 StundenPython ist eine Programmiersprache, die in der Finanzbranche große Popularität erlangt hat. Angenommen von den größten Investmentbanken und Hedgefonds, wird es verwendet, um eine breite Palette von Finanzanwendungen aufzubauen, die von Kernhandelsprogrammen bis hin zu Risikomanagementsystemen reichen.
In diesem von Lehrern geleiteten Live-Training lernen die Teilnehmer, wie sie mit Python praktische Anwendungen zur Lösung einer Reihe spezifischer finanzbezogener Probleme entwickeln.
Am Ende dieser Schulung können die Teilnehmer:
- Verstehen Sie die Grundlagen der Programmiersprache Python
- Laden Sie die besten Entwicklungstools zum Erstellen von Finanzanwendungen in Python herunter, installieren Sie sie und warten Sie sie
- Auswählen und Verwenden der am besten geeigneten Python Pakete und Programmiertechniken zum Organisieren, Visualisieren und Analysieren von Finanzdaten aus verschiedenen Quellen (CSV, Excel , Datenbanken, Web usw.)
- Erstellen Sie Anwendungen, die Probleme in Bezug auf Asset Allocation, Risikoanalyse, Anlageperformance und mehr lösen
- Problembehandlung, Integration, Bereitstellung und Optimierung einer Python Anwendung
Publikum
- Entwickler
- Analysten
- Quants
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben
Hinweis
- Diese Schulung soll Lösungen für einige der Hauptprobleme bieten, mit denen Finanzfachleute konfrontiert sind. Wenn Sie jedoch ein bestimmtes Thema, Werkzeug oder eine bestimmte Technik haben, die Sie anhängen oder weiter ausarbeiten möchten, kontaktieren Sie uns bitte, um dies zu arrangieren.
Data Science essential for Marketing/Sales professionals
21 StundenDieser Kurs richtet sich an Marketing Vertriebsprofis, die tiefer in die Anwendung von Data Science im Marketing/Vertrieb einsteigen möchten. Der Kurs bietet eine detaillierte Abdeckung verschiedener datenwissenschaftlicher Techniken, die für „Upsale“, „Cross-Sale“, Marktsegmentierung, Branding und CLV verwendet werden.
Unterschied zwischen Marketing und Vertrieb – Wie unterscheiden sich Vertrieb und Marketing?
In sehr einfachen Worten kann Verkauf als ein Prozess bezeichnet werden, der sich auf Einzelpersonen oder kleine Gruppen konzentriert oder darauf abzielt. Marketing hingegen richtet sich an eine größere Gruppe bzw. die breite Öffentlichkeit. Marketing umfasst Forschung (Identifizierung der Bedürfnisse des Kunden), Entwicklung von Produkten (Herstellung innovativer Produkte) und Werbung für das Produkt (durch Werbung) sowie die Schaffung eines Bewusstseins für das Produkt bei den Verbrauchern. Marketing bedeutet also die Generierung von Leads oder Interessenten. Sobald das Produkt auf dem Markt ist, ist es die Aufgabe des Verkäufers, den Kunden zum Kauf des Produkts zu bewegen. Beim Verkauf geht es darum, Leads oder Interessenten in Käufe und Bestellungen umzuwandeln, während das Marketing auf längere Fristen abzielt, bezieht sich der Verkauf auf kürzere Ziele.