Lehre

Wir bieten verschiedene Lehrveranstaltungen, sowie Seminar- und Abschlussarbeiten an.

Lehrveranstaltungen

Natural Language Processing

In Arbeit.

Seminar- und Abschlussarbeiten

Haben Sie Interesse Ihre Seminar- oder Abschlussarbeit bei uns zu schreiben? Kontaktieren Sie uns!




Neuronale Netze weisen sehr viele Parameter auf, die während des Trainingsprozesses bestimmt werden. Um jedoch ein zuverlässiges Modell zu erhalten muss man ebenfalls entsprechende Hyperparameter einstellen, die nicht im Trainingsprozess gelernt werden können: Stärke von Regularisierern, Lernrate, Dimensionen von Layern, etc..

Da die Bestimmung dieser Hyperparameter empirisch vollzogen wird und der Test einer Kombination von Hyperparametern einen kompletten Trainingszyklus bedarf, ist der Aufwand der Hyperparametersuche enorm.

Um diese Suche zu beschleunigen, gibt es Pruning Strategien, die nicht-vielversprechende Trainingsläufe einer Parameterkombination frühzeitig abbrechen, um somit Rechenzeit zu sparen.

Ziel der Arbeit:

  • Einen Benchmark-Task auswählen
  • Überblick über Pruning Strategien geben
  • Ausarbeitung einer Auswahl an Pruning Strategien
  • Anwendung dieser Pruning Strategien auf den Benchmark-Task

Betreuung: p.kohl@fh-aachen.de

Unbalancierte und qualitativ schlechte Datensätze führen bei ML-Anwendungen häufig zu Genauigkeitsverlusten. Im Rahmen der Arbeit soll auf Basis von Bootstrapping eine Methode entwickelt werden, um die Verteilung von Eigenschaften in einem vorgegebenen Datensatz so zu optimieren, dass auch Eigenschaften, die selten auftreten gelernt werden können.

  • Mathematicher Schwerpunkt
  • ML-Kenntnisse nicht Zwangsweise nötig
  • Datenvisualisierung
  • Der optimierte Datensatz kann automatisiert getestet werden, sodass Fortschritte gut sichtbar werden

Betreuung: schmidts@fh-aachen.de

Annotierte Texte sind die Grundlage für viele Anwendungen im Bereich des Natural Language Prozessings. Für viele domänen sind sog. Korpora nicht im nötigen Umfang vorhanden. Im Zuge dieser Arbeit soll ein bestehendes Tool erweitert werden um diesen Umstand zu verbessern.

  • Syntaktische und semantische Annotationen sollen möglich werden.
  • Konkret Dependency Parsing und Coreference Resolution
  • Erweitern des Konverter Service, spacy Modelle sollen erweiterbar sein
  • UI – geeignete Darstellungsform wählen und Steuerung entwefen

Betreuung: schmidts@fh-aachen.de, werth@fh-aachen.de

Wie kann Google einen riesigen Wissensgraphen automatisiert erstellen, der fast alle relevante Informationen zu allen bekannten Firmen, Personen, Ereignissen usw. umfasst?

Das Geheimnis liegt in zwei Technologien: Relation Extraction und Distant Supervision. Als Quelle werden unter anderem Wikipediaartikel verwendet. Durch Verweise sind bekannte Entitäten, wie Organisationen und Personen gekennzeichnet. Eine Relation zwischen einer Person und einem Ort wäre beispielsweise

(A, wohnt in B).

Immer, wenn zu einer Relation passende Entitäten in einem  Satz genannt werden, wird der entsprechende Satz als positives Beispiel für diese Relation genutzt. Diese beispiele werden genutzt um einen Klassifikationsalgorithmus zu trainieren, der genutzt wird um neue unbekannte Relationen zu entdecken.

Durch Anwendung dieser Technologien können riesige Wissenssammlungen automatisiert erstellt werden. Ziel einer Arbeit kann es entweder sein einen eigenen Ansatz zu implementieren (Ergebniss wäre ein eigener Wissengraph) oder bestehende Ansätze zu vergleichen und zu evaluieren.

Betreuung: kloeser@fh-aachen.de

Viele Produktpreisblätter werden im PDF-Format bereitgestellt und beinhalten semi-strukturierte Daten (z.B. Tabellen). Diese müssen zur späteren Weiterverarbeitung aus dem PDF-Dokument extrahiert werden. Dazu müssen moderne Objekterkennungsverfahren im Rahmen von Bildverarbeitung eingesetzt werden.

  • Implementierung moderner Object-Detection Algorithmen (z.B. mit Detectron, OpenCV, Pytorch) in Python
  • Modellbildung und -training zur Erkennung von Objekten (Tabellen) in PDF-Dokumenten auf Grundlage von annotierten Dokumenten

Betreuung: michael.sildatke@fh-aachen.de

Stromtarife werden durch unterschiedliche Eigenschaften beschrieben. Neben den preislichen Bestandteilen (z.B. Arbeitspreis oder Grundpreis) zählen dazu vor allem auch solche, wie der Tarifname oder Gültigkeitszeiträume. Diese Informationen müssen mittels NLP aus dem Text eines Produktpreisblattes extrahiert werden.

  • Informationsextraktion aus Fließtext eines PDF-Dokuments mittels NLP
  • Extraktion von nicht-preislichen Tarifinformationen aus einem Strom-Tarifblatt
  • Entwicklung und Training spezieller NLP-Modelle zur Erkennung von Tarifkomponenten (z.B. Tarifname)

Betreuung: michael.sildatke@fh-aachen.de

Firmen verschiedenster Branchen erhalten zahlreiche unstrukturierte Schreiben von ihren Kunden. Dazu zählen sowohl E-Mails, als auch Faxe und Briefe. Die Verarbeitung dieser Schreiben wird oftmals nach der Digitalisierung des Dokuments manuell durchgeführt. Um eine automatische Verarbeitung zu ermöglichen, ist ein wichtiger Schritt die Erkennung relevanter Textbereiche. Diese Bereiche sind in weiteren Prozessschritten unterschiedlich zu verarbeiten.

Ein möglicher Anwendungsfall wäre die Erkennung von Anschrift-/Adressblöcken, Ort-Zeit-Koordinaten und Anliegentextbereich in Dokumenten. Die ersten beiden Bereiche können zumeist einfach automatisiert weiterverarbeitet werden, wohingegen die Verarbeitung des Anliegentextes aufwendiger ist und komplexerer Prozessschritte bedurft.

Ziel dieser Arbeit ist der Vergleich verschiedener Ansätze zur Textbereich Identifikation. Dazu zählen OCR-Verfahren und ML-Algorithmen, insbesondere NLP-Verfahren.

Betreuung: siebigteroth@fh-aachen.de

Menü schließen