Schulungsübersicht

Einführung in Multimodal AI

  • Überblick über multimodale KI und Anwendungen in der Praxis
  • Herausforderungen bei der Integration von Text-, Bild- und Audiodaten
  • Stand der Forschung und Fortschritte

Datenverarbeitung und Feature Engineering

  • Umgang mit Text-, Bild- und Audiodatensätzen
  • Vorverarbeitungsmethoden für multimodales Lernen
  • Strategien zur Merkmalsextraktion und Datenfusion

Erstellung multimodaler Modelle mit PyTorch und Hugging Face

  • Einführung in PyTorch für multimodales Lernen
  • Verwendung von Hugging Face Transformatoren für NLP- und Sehaufgaben
  • Kombinieren verschiedener Modalitäten in einem einheitlichen KI-Modell

Implementierung von Sprach-, Bild- und Textfusion

  • Integration von OpenAI Whisper für die Spracherkennung
  • Anwendung von DeepSeek-Vision für die Bildverarbeitung
  • Fusionstechniken für modalübergreifendes Lernen

Trainieren und Optimieren von Multimodal AI-Modellen

  • Modelltrainingsstrategien für multimodale KI
  • Optimierungstechniken und Abstimmung der Hyperparameter
  • Behandlung von Verzerrungen und Verbesserung der Modellgeneralisierung

Einsatz von Multimodal AI in realen Anwendungen

  • Exportieren von Modellen für den Produktionseinsatz
  • Einsatz von KI-Modellen auf Cloud-Plattformen
  • Leistungsüberwachung und Modellwartung

Fortgeschrittene Themen und zukünftige Trends

  • Zero-shot und few-shot Lernen in multimodaler KI
  • Ethische Überlegungen und verantwortungsvolle KI-Entwicklung
  • Aufkommende Trends in der multimodalen KI-Forschung

Zusammenfassung und nächste Schritte

Voraussetzungen

  • Ausgeprägtes Verständnis von Konzepten des maschinellen Lernens und des Deep Learning
  • Erfahrung mit KI-Frameworks wie PyTorch oder TensorFlow
  • Vertrautheit mit der Verarbeitung von Text-, Bild- und Audiodaten

Zielgruppe

  • KI-Entwickler
  • Ingenieure für maschinelles Lernen
  • Forscher
 21 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Kommende Kurse

Verwandte Kategorien