Kontakt aufnehmen

Schulungsübersicht

KI-Souveränität und lokale Bereitstellung von LLMs

  • Risiken von Cloud-LLMs: Datenspeicherung, Training auf Eingaben, ausländische Rechtsprechung.
  • Ollama-Architektur: Modellserver, Registry und OpenAI-kompatible API.
  • Vergleich mit vLLM, llama.cpp und Text Generation Inference.
  • Modell-Lizenzen: Bedingungen für Llama, Mistral, Qwen und Gemma.

Installation und Hardware-Einrichtung

  • Installation von Ollama auf Linux mit CUDA- und ROCm-Unterstützung.
  • CPU-Only-Fallback und AVX/AVX2-Optimierung.
  • Docker-Bereitstellung und persistentes Volume-Mapping.
  • Multi-GPU-Einrichtung und Strategien zur VRAM-Zuweisung.

Modell-Management

  • Abrufen von Modellen aus dem Ollama-Registry: ollama pull llama3.
  • Importieren von GGUF-Modellen von HuggingFace und TheBloke.
  • Quantisierungsstufen: Abwägungen zwischen Q4_K_M, Q5_K_M und Q8_0.
  • Modellauswahl und Begrenzungen beim gleichzeitigen Laden von Modellen.

Benutzerdefinierte Modelfiles

  • Schreiben der Modelfile-Syntax: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Anpassung von Temperatur, top_p und repeat_penalty.
  • System-Prompt-Engineering für rollenspezifisches Verhalten.
  • Erstellen und Veröffentlichen benutzerdefinierter Modelle im lokalen Registry.

API-Integration

  • OpenAI-kompatibles /v1/chat/completions-Endpunkt.
  • Streaming-Antworten und JSON-Modus.
  • Integration mit LangChain, LlamaIndex und benutzerdefinierten Apps.
  • Authentifizierung und Ratenbegrenzung mit Reverse-Proxy.

Leistungsoptimierung

  • Größe des Kontextfensters und KV-Cache-Verwaltung.
  • Batch-Inferenz und parallele Anfrageverarbeitung.
  • CPU-Thread-Zuweisung und NUMA-Bewusstsein.
  • Überwachung der GPU-Auslastung und des Speicherdrucks.

Sicherheit und Compliance

  • Netzwerkisolierung für Modell-Serving-Endpunkte.
  • Eingabe-Filterung und Ausgabe-Moderation-Pipelines.
  • Audit-Logging von Prompts und Vervollständigungen.
  • Modell-Herkunft und Hash-Verifizierung.

Voraussetzungen

  • Kenntnisse in der Linux- und Containerverwaltung auf mittlerem Niveau.
  • Grundlegendes Verständnis von maschinellem Lernen und Transformer-Modellen auf hoher Ebene.
  • Vertrautheit mit REST-APIs und JSON.

Zielgruppe

  • KI-Ingenieure und Entwickler, die Cloud-LLM-APIs ersetzen.
  • Organisationen mit sensiblen Daten, die die Nutzung von Cloud-Modellen verhindern.
  • Regierungs- und Verteidigungsteams, die luftgetrennte (air-gapped) Sprachmodelle erfordern.
 14 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien