Lehre

Wir bieten verschiedene Lehrveranstaltungen, sowie Seminar- und Abschlussarbeiten an.

Lehrveranstaltungen

Natural Language Processing

In Arbeit.

Seminar- und Abschlussarbeiten

Haben Sie Interesse Ihre Seminar- oder Abschlussarbeit bei uns zu schreiben? Kontaktieren Sie uns!

Pruning Strategien bei der Hyperparametersuche

Neuronale Netze weisen sehr viele Parameter auf, die während des Trainingsprozesses bestimmt werden. Um jedoch ein zuverlässiges Modell zu erhalten muss man ebenfalls entsprechende Hyperparameter einstellen, die nicht im Trainingsprozess gelernt werden können: Stärke von Regularisierern, Lernrate, Dimensionen von Layern, etc..

Da die Bestimmung dieser Hyperparameter empirisch vollzogen wird und der Test einer Kombination von Hyperparametern einen kompletten Trainingszyklus bedarf, ist der Aufwand der Hyperparametersuche enorm.

Um diese Suche zu beschleunigen, gibt es Pruning Strategien, die nicht-vielversprechende Trainingsläufe einer Parameterkombination frühzeitig abbrechen, um somit Rechenzeit zu sparen.

Ziel der Arbeit:

Einen Benchmark-Task auswählen
Überblick über Pruning Strategien geben
Ausarbeitung einer Auswahl an Pruning Strategien
Anwendung dieser Pruning Strategien auf den Benchmark-Task

Betreuung: p.kohl@fh-aachen.de

Datensatz Optimierung für Machine-Learning bei unbalancierten Daten

Unbalancierte und qualitativ schlechte Datensätze führen bei ML-Anwendungen häufig zu Genauigkeitsverlusten. Im Rahmen der Arbeit soll auf Basis von Bootstrapping eine Methode entwickelt werden, um die Verteilung von Eigenschaften in einem vorgegebenen Datensatz so zu optimieren, dass auch Eigenschaften, die selten auftreten gelernt werden können.

Mathematicher Schwerpunkt
ML-Kenntnisse nicht Zwangsweise nötig
Datenvisualisierung
Der optimierte Datensatz kann automatisiert getestet werden, sodass Fortschritte gut sichtbar werden

Betreuung: schmidts@fh-aachen.de

Erweiterung eines Annotationstools für natürlichsprachige Texte

Annotierte Texte sind die Grundlage für viele Anwendungen im Bereich des Natural Language Prozessings. Für viele domänen sind sog. Korpora nicht im nötigen Umfang vorhanden. Im Zuge dieser Arbeit soll ein bestehendes Tool erweitert werden um diesen Umstand zu verbessern.

Syntaktische und semantische Annotationen sollen möglich werden.
Konkret Dependency Parsing und Coreference Resolution
Erweitern des Konverter Service, spacy Modelle sollen erweiterbar sein
UI – geeignete Darstellungsform wählen und Steuerung entwefen

Betreuung: schmidts@fh-aachen.de, werth@fh-aachen.de

Automatisches erstellen von Wissensgraphen

Wie kann Google einen riesigen Wissensgraphen automatisiert erstellen, der fast alle relevante Informationen zu allen bekannten Firmen, Personen, Ereignissen usw. umfasst?

Das Geheimnis liegt in zwei Technologien: Relation Extraction und Distant Supervision. Als Quelle werden unter anderem Wikipediaartikel verwendet. Durch Verweise sind bekannte Entitäten, wie Organisationen und Personen gekennzeichnet. Eine Relation zwischen einer Person und einem Ort wäre beispielsweise

(A, wohnt in B).

Immer, wenn zu einer Relation passende Entitäten in einem Satz genannt werden, wird der entsprechende Satz als positives Beispiel für diese Relation genutzt. Diese beispiele werden genutzt um einen Klassifikationsalgorithmus zu trainieren, der genutzt wird um neue unbekannte Relationen zu entdecken.

Durch Anwendung dieser Technologien können riesige Wissenssammlungen automatisiert erstellt werden. Ziel einer Arbeit kann es entweder sein einen eigenen Ansatz zu implementieren (Ergebniss wäre ein eigener Wissengraph) oder bestehende Ansätze zu vergleichen und zu evaluieren.

Betreuung: kloeser@fh-aachen.de

Extraktion von Semi-strukturierten Daten aus PDF-dokumenten mit hilfe von object-detection algorithmen

Viele Produktpreisblätter werden im PDF-Format bereitgestellt und beinhalten semi-strukturierte Daten (z.B. Tabellen). Diese müssen zur späteren Weiterverarbeitung aus dem PDF-Dokument extrahiert werden. Dazu müssen moderne Objekterkennungsverfahren im Rahmen von Bildverarbeitung eingesetzt werden.

Implementierung moderner Object-Detection Algorithmen (z.B. mit Detectron, OpenCV, Pytorch) in Python
Modellbildung und -training zur Erkennung von Objekten (Tabellen) in PDF-Dokumenten auf Grundlage von annotierten Dokumenten

Betreuung: michael.sildatke@fh-aachen.de

Informationsextraktion aus Produktpreisblättern in der Energiewirtschaft

Stromtarife werden durch unterschiedliche Eigenschaften beschrieben. Neben den preislichen Bestandteilen (z.B. Arbeitspreis oder Grundpreis) zählen dazu vor allem auch solche, wie der Tarifname oder Gültigkeitszeiträume. Diese Informationen müssen mittels NLP aus dem Text eines Produktpreisblattes extrahiert werden.

Informationsextraktion aus Fließtext eines PDF-Dokuments mittels NLP
Extraktion von nicht-preislichen Tarifinformationen aus einem Strom-Tarifblatt
Entwicklung und Training spezieller NLP-Modelle zur Erkennung von Tarifkomponenten (z.B. Tarifname)

Betreuung: michael.sildatke@fh-aachen.de

Textbereichextraktion aus unstrukturierten Schreiben

Firmen verschiedenster Branchen erhalten zahlreiche unstrukturierte Schreiben von ihren Kunden. Dazu zählen sowohl E-Mails, als auch Faxe und Briefe. Die Verarbeitung dieser Schreiben wird oftmals nach der Digitalisierung des Dokuments manuell durchgeführt. Um eine automatische Verarbeitung zu ermöglichen, ist ein wichtiger Schritt die Erkennung relevanter Textbereiche. Diese Bereiche sind in weiteren Prozessschritten unterschiedlich zu verarbeiten.

Ein möglicher Anwendungsfall wäre die Erkennung von Anschrift-/Adressblöcken, Ort-Zeit-Koordinaten und Anliegentextbereich in Dokumenten. Die ersten beiden Bereiche können zumeist einfach automatisiert weiterverarbeitet werden, wohingegen die Verarbeitung des Anliegentextes aufwendiger ist und komplexerer Prozessschritte bedurft.

Ziel dieser Arbeit ist der Vergleich verschiedener Ansätze zur Textbereich Identifikation. Dazu zählen OCR-Verfahren und ML-Algorithmen, insbesondere NLP-Verfahren.

Betreuung: siebigteroth@fh-aachen.de

Lehre

Lehrveranstaltungen

Java

Softwaretechnik

IT Projektmanagement

Agile Software Factory

Natural Language Processing

Seminar- und Abschlussarbeiten

Haben Sie Interesse Ihre Seminar- oder Abschlussarbeit bei uns zu schreiben? Kontaktieren Sie uns!