Schulungsübersicht

Einführung in Multi-Modale KI

  • Was ist multi-modale KI?
  • Hauptforderungen und Anwendungen
  • Übersicht der führenden multi-modalen Modelle

Textverarbeitung und Natürliche Sprachverstehen

  • Nutzen von LLMs für textbasierte KI-Agenten
  • Verständnis der Prompt-Engineering-Methoden für multi-modale Aufgaben
  • Feinabstimmung von Textmodellen für domänenspezifische Anwendungen

Bilderkennung und -generierung

  • Verarbeitung von Bildern mit KI: Klassifikation, Beschriftung und Objekterkennung
  • Erzeugung von Bildern mit Diffusion-Modellen (Stable Diffusion, DALLE)
  • Integration von bildbasierten Daten in textbasierende Modelle

Spracherkennung und Audioverarbeitung

  • Spracherkennung mit Whisper ASR
  • Techniken für Text-zu-Sprache (TTS) Synthese
  • Verbesserung der Benutzerschnittstelle durch sprachbasierte KI

Integration von Multi-Modalen Eingaben

  • Erstellen von AI-Pipelines zur Verarbeitung verschiedener Eingabetypen
  • Fusionstechniken zur Kombination von Text-, Bild- und Sprachdaten
  • Realitätsnahe Anwendungen multi-modaler KI-Agenten

Bereitstellung von Multi-Modalen KI-Agenten

  • Erstellen von API-getriebenen, multi-modalen KI-Lösungen
  • Optimierung der Modelle für Leistung und Skalierbarkeit
  • Best Practices für die Bereitstellung multi-modaler KI in der Produktion

Ethische Aspekte und Zukünftige Trends

  • Vorurteile und Fairness in multi-modalen KIs
  • Datenschutzbedenken bei multi-modalen Daten
  • Zukünftige Entwicklungen in der multi-modalen KI

Zusammenfassung und Nächste Schritte

Voraussetzungen

  • Grundverständnis der Maschinellem Lernen
  • Erfahrung im Python-Programmieren
  • Kenntnisse in Tiefen-Lern-Frameworks (z. B., TensorFlow, PyTorch)

Zielgruppe

  • AI-Entwickler
  • Forscher
  • Multimedia-Ingenieure
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien