Schulungsübersicht

Detaillierte Schulungsübersicht

  1. Einführung in NLP
    • NLP verstehen
    • NLP-Frameworks
    • Kommerzielle Anwendungen von NLP
    • Web-Daten sammeln
    • Arbeiten mit verschiedenen APIs zur Abrufung von Textdaten
    • Aufladen und Speichern von Textkorpora einschließlich relevantem Metadaten
    • Vorteile der Nutzung des Crash Courses Python und NLTK
  2. Praktisches Verständnis eines Korpus und einer Datensatz
    • Warum benötigen wir ein Corpus?
    • Korpusanalyse
    • Arten von Datenattributen
    • Verschiedene Dateiformate für Korpora
    • Vorbereitung eines Datensatzes für NLP-Anwendungen
  3. Verständnis der Struktur von Sätzen
    • Komponenten des NLP
    • Natürlichsprachliche Verarbeitung
    • Morphologische Analyse - Stamm, Wort, Token, Sprachmarkierungen
    • Syntaktische Analyse
    • Semantische Analyse
    • Umgang mit Ambiguität
  4. Vorverarbeitung von Textdaten
    • Korpus - Rohtext
      • Aufteilung in Sätze
      • Stammform für Rohtext
      • Lemmatisierung des Rohtexts
      • Entfernung von Stoppwörtern
    • Korpus - Rohsatz
      • Word Tokenisierung
      • Word Lemmatisierung
    • Arbeiten mit Term-Dokument-/Dokument-Term-Matrizen
    • Texttokenisierung in n-Gramme und Sätze
    • Praktische und benutzerdefinierte Vorverarbeitung
  5. Analyse von Textdaten
    • Basismerkmale des NLP
      • Parser und Parsen
      • POS-Tags und Tagger
      • Namenerkennung
      • N-Gramme
      • Bag-of-Words
    • Statistische Merkmale des NLP
      • Konzepte der linearen Algebra für NLP
      • Wahrscheinlichkeitstheorie für NLP
      • TF-IDF
      • Vektorisierung
      • Coder und Decoder
      • Normalisierung
      • Wahrscheinlichkeitsmodelle
    • Erweiterte Merkmalsgenerierung und NLP
      • Einführung in word2vec
      • Komponenten des word2vec-Modells
      • Logik des word2vec-Modells
      • Erweiterung des Konzepts von word2vec
      • Anwendung des word2vec-Modells
    • Fallstudie: Anwendung der Bag-of-Words-Methode: Automatische Textzusammenfassung mit vereinfachten und echten Luhnschen Algorithmen
  6. Dokumentenclustering, Klassifizierung und Themenmodellierung
    • Dokumentenclustering und Mustererkennung (hierarchisches Clustering, k-Means-Clustering usw.)
    • Vergleich und Klassifizierung von Dokumenten mit TFIDF, Jaccard-Distanz und Kosinusdistanzmaßen
    • Dokumentenklassifikation mit Naïve Bayes und Maximum Entropie
  7. Identifizieren wichtiger TextElements
    • Dimensionsreduktion: Hauptkomponentenanalyse, Singulärwertzerlegung, nichtnegative Matrixfaktorisierung
    • Themenmodellierung und Informationsabfrage mit Latent Semantic Analysis
  8. Entnahme von Entitäten, Sentiment Analysis und erweiterte Themenmodellierung
    • Positiv vs. negativ: Grad der Sentimentanalyse
    • Item Response Theory
    • Satzteilkennzeichnung und ihre Anwendung: Auffinden von Personen, Orten und Organisationen im Text
    • Erfahrenere Themenmodellierung: Latent Dirichlet Allocation
  9. Fallstudien
    • Minieren unstrukturierter Benutzerbewertungen
    • Sentimentanalyse und Visualisierung von Produktbewertungsdaten
    • Minieren von Suchprotokollen für Nutzungsmuster
    • Textklassifizierung
    • Themenmodellierung

Voraussetzungen

Kenntnisse und Awareness der Grundlagen der NLP sowie die Wertschätzung der Anwendung von KI im Geschäftsbereich

 21 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien