Erstes Large Language Model für deutschsprachige Wissenschaftskommunikation vorgestellt
Auf einen Blick
Das Institut für KI & Datenwissenschaften präsentiert „SciLingua-DE“, das erste Large Language Model speziell für deutschsprachige Wissenschaftskommunikation.
Das Modell ermöglicht die automatische Erzeugung verständlicher Zusammenfassungen komplexer Forschungsergebnisse.
SciLingua-DE wurde auf einem Korpus von über 2,4 Millionen wissenschaftlichen Publikationen und Laientexten trainiert.
Das Modell steht als Open-Source-Version für Forschungseinrichtungen und Wissenschaftsverlage zur Verfügung.
Erste Pilotanwendungen laufen bereits bei drei deutschen Forschungsförderorganisationen.
Motivation und Ausgangslage
Die Übersetzung komplexer wissenschaftlicher Erkenntnisse in allgemeinverständliche Sprache ist eine der großen Herausforderungen moderner Wissenschaftskommunikation. Bisherige KI-gestützte Lösungen für diesen Zweck waren primär auf Englisch ausgelegt oder lieferten bei deutschsprachigen Fachtexten unbefriedigende Ergebnisse, da wissenschaftliche Terminologie im Deutschen spezifische Kompositabildungen und stilistische Konventionen aufweist.
Das Institut für KI & Datenwissenschaften hat deshalb ein Modell entwickelt, das explizit für die deutsche Wissenschaftssprache optimiert ist und dabei sowohl fachliche Präzision als auch Verständlichkeit für Laien gewährleistet.
Technischer Aufbau und Training
SciLingua-DE basiert auf einer Transformer-Architektur mit 13 Milliarden Parametern. Das Vortraining erfolgte auf einem gemischten Korpus aus deutschsprachigen wissenschaftlichen Zeitschriftenartikeln, Dissertationen, Pressemitteilungen von Forschungseinrichtungen sowie Populärwissenschaftstexten aus Magazinen wie Spektrum der Wissenschaft und bild der wissenschaft.
Ein besonderer Schritt im Training war das domänenspezifische Feintuning (Domain-Adaptive Pretraining) auf einem kuratierten Datensatz, der Paare von Fachtexten und entsprechenden Laienzusammenfassungen enthält. Dieser Datensatz wurde manuell von wissenschaftlichen Redakteurinnen und Redakteuren erstellt und umfasst über 180.000 Textpaare aus fünf wissenschaftlichen Disziplinen.
Anwendungsmöglichkeiten und Veröffentlichung
SciLingua-DE eignet sich für eine Reihe von Anwendungskontexten: automatische Erzeugung von Pressemitteilungen aus Forschungsberichten, Unterstützung bei der Erstellung von Laienabstracts für Forschungsanträge, Vereinfachung von Fachinhalten für Bildungsplattformen sowie die Ergänzung von Artikeln in wissenschaftlichen Zeitschriften um Kurzfassungen für das Allgemeinpublikum.
Das Modell sowie der zugehörige Trainingscode werden unter einer Creative-Commons-Lizenz veröffentlicht. Eine gehostete API-Version wird nach einem Evaluierungszeitraum von sechs Monaten ebenfalls zugänglich gemacht. Interessierte Forschungseinrichtungen können sich bereits jetzt für den Early-Access registrieren.

