Erstellung und Analyse Leichter Sprache durch Künstliche Intelligenz (ErLeSen)

Dieses Forschungsprojekt wurde gefördert vom: Bundesministerium für Familie, Senioren, Frauen und Jugend

Kennzeichen: 3923406K05

Projektbeschreibung

Im Forschungsprojekt ErLeSen hat das Projektteam neue Verfahren zur Erstellung „Leichter Sprache“ mittels künstlicher Intelligenz (KI) entwickelt und evaluiert. Im öffentlichen Sektor besteht ein großer Bedarf zeitnah und in der Breite Informationen in vereinfachten Sprachvarianten bereitzustellen, nicht zuletzt durch die Anforderung des BFSG. In der Praxis erfolgt diese Übertragung aktuell überwiegend manuell durch spezialisierte Dienstleister. Dieses Vorgehen ist finanziell aufwändig und führt zu Verzögerungen, sodass es nur für einen Ausschnitt der Anwendungsfälle zum Einsatz kommt. Durch eine KI-basierte, automatisierte Übertragung wird angestrebt, neben dem bestehenden Geschäft der manuellen Übersetzer, eine deutliche Ausweitung des Angebots an vereinfachten Inhalten bereitstellen zu können.  

Im Projektverlauf wurden technische und inhaltliche Anforderungen gesammelt. Stand der Technik sind hierbei große Sprachmodelle, Large Language Models (LLMs), die z.T. frei verfügbar sind. Um die Anforderungen zu erfüllen ist eine Anpassung dieser Modelle (Finetuning) erforderlich. Die Anpassung einer KI erfolgt üblicherweise über einen (technischen) Lernprozess, der auf Basis von Trainingsdaten das Wissen der Zieldomäne erfolgt. Diese Trainingsdaten standen bisher nicht frei zur Verfügung, im Projekt wurde daher ein Verfahren zur synthetischen Datenerstellung entwickelt. Diese Trainingsdatenmenge ist die Basis für die aktuellen Versionen des entwickelten Sprachmodells.  

Synthetische Datenerstellung. Im ersten Schritt werden Beispieltexte in Leichter Sprache aus frei verfügbaren Quellen zusammengestellt. Diese dienen als Stilvorgabe um im zweiten Schritt einen neuen Vereinfachungstext zu einem neuen Thema zu erstellen. Im dritten Schritt wird dann geplant, wie ein Ausgangtest in "schwerer" Sprache dazuerstellt werden kann. Abschließend wird der schere Text generiert.

Die entstandenen Trainingsdaten sowie die darauf basierenden KI-Modelle stehen für die wissenschaftliche Gemeinschaft offen zur Verfügung und werden hier auch bereits intensiv genutzt (über 100 Downloads des KI-Modells). Das Verfahren wurde auf einer internationalen Konferenz publiziert und vorgestellt. Alle Ergebnisse sind offen verfügbar. Die beiden nebenstehenden Abbildungen illustrieren das Verfahren zur synthetischen Datenerstellung und zur nachgelagerten Anwendung (Inference).

Prozess des Modelltrainings. Zum Training eines Sprachvereinfachungsmodells wird der Prozess der Datenerstellung rückwärts durchlaufen. Ausgehend von einem schwer verständlichen Text wird optional ein Plan zur vereinfachung erstellt. Final wird ein Text in Leichter SPrache ausgegeben.

Aufgrund des enormen und anhaltenden technischen Fortschritts in dieser Domäne wurde die Notwendigkeit für eine objektive, Metrik-basierte Evaluationssystematik erkannt. Diese ermöglicht es, die Qualität, der heute verfügbaren und der zukünftig entwickelten KI-Modelle automatisiert zu bewerten. Zudem können die aktuell noch unzureichenden aber stark wachsenden Potentiale kleinerer Sprachmodelle überwacht werden. Gerade in der aktuellen Diskussion um neue Entwicklungen, wie z.B. DeepSeek, zeigt sich, dass eine schnelle und verlässliche Evaluierung neuer Basistechnologien erforderlich ist, um die heutige Lösung an den jeweils optimalen, aktuellen Stand anzupassen.  

Diese entwickelte Systematik, die darauf aufbauenden Tools und die entwickelten Metriken stehen der wissenschaftlichen Gemeinde offen zur Verfügung. Ein prototypisches Werkzeug, das eine Übertragung von Inhalten in Leichte Sprache generiert, wurde entwickelt und steht ebenfalls als Open-Source Veröffentlichung bereit. Eine wissenschaftliche Veröffentlichung zu diesem Thema ist aktuell noch in Arbeit.

Screenshot der Webanwendung. Diese Anwendung ermöglicht es, die entwickelten Modelle eigene Texte vereinfachen zu lassen. In unserem GitHub Repository finden Sie hierzu eine Anleitung.

Die Akzeptanz einer automatisierten Lösung hängt abschließend von dem Urteil des Anwenders ab. Als Ergänzung zur Metrik-basierten Evaluation wurden die vielversprechenden KI-Modelle von Experten der Zielgruppe sowie von einer Gruppe von Studierenden bewertet. Im Ergebnis kann festgehalten werden, dass die aktuell verfügbaren großen Sprachmodelle im Sinne einer Vorübersetzung bereits Nutzen erzeugen. Allerdings ist eine manuelle Nacharbeit bzw. Qualitätssicherung erforderlich, insbesondere bei kritischen Inhalten. Die Verwendung kleiner Sprachmodelle, die auch auf üblicher Büro-Hardware ausführbar sind, finden in der Evaluationsgruppe keine Akzeptanz.  

Die erarbeiteten Ergebnisse und veröffentlichen Ressourcen können frei verwendet werden. Es ist für Interessierte möglich, die im Projekt erarbeiteten Sprachmodelle zu verwenden und den Prototyp zu installieren. Für die forschende Gemeinschaft sind tiefgehende Erkenntnisse entstanden, auf denen anschließende Forschung und Entwicklung aufbauen kann.  

Es bleibt zu beachten, dass der Themenkomplex der großen Sprachmodelle noch extrem jung ist und massive Erweiterungen zu erwarten sind. Aus Sicht des Anwenders ist der Betrieb hochqualitativer Modelle auf günstiger Standardhardware eine berechtigte Forderung. Die aktuelle Forschung im Bereich der Sprachmodelle erarbeitet hier fortlaufend Verbesserungen.  

Ressourcen

Hier finden Sie weitere Informationen zum Projekt und zu den Projektergebnissen:

Wissenschaftliche Veröffentlichungen:

Source Code und Ressourcen:
Menü schließen