KI-FORSCHUNG

Erstes Large Language Model für deutschsprachige Wissenschaftskommunikation vorgestellt

By adminpublished , last modified
Moderne Rechenzentrum-Infrastruktur für KI-Training und Sprachmodelle
KI-Forschungsinfrastruktur

Auf einen Blick

  • Das Institut für KI & Datenwissenschaften präsentiert „SciLingua-DE“, das erste Large Language Model speziell für deutschsprachige Wissenschaftskommunikation.

  • Das Modell ermöglicht die automatische Erzeugung verständlicher Zusammenfassungen komplexer Forschungsergebnisse.

  • SciLingua-DE wurde auf einem Korpus von über 2,4 Millionen wissenschaftlichen Publikationen und Laientexten trainiert.

  • Das Modell steht als Open-Source-Version für Forschungseinrichtungen und Wissenschaftsverlage zur Verfügung.

  • Erste Pilotanwendungen laufen bereits bei drei deutschen Forschungsförderorganisationen.

Motivation und Ausgangslage

Die Übersetzung komplexer wissenschaftlicher Erkenntnisse in allgemeinverständliche Sprache ist eine der großen Herausforderungen moderner Wissenschaftskommunikation. Bisherige KI-gestützte Lösungen für diesen Zweck waren primär auf Englisch ausgelegt oder lieferten bei deutschsprachigen Fachtexten unbefriedigende Ergebnisse, da wissenschaftliche Terminologie im Deutschen spezifische Kompositabildungen und stilistische Konventionen aufweist.

Das Institut für KI & Datenwissenschaften hat deshalb ein Modell entwickelt, das explizit für die deutsche Wissenschaftssprache optimiert ist und dabei sowohl fachliche Präzision als auch Verständlichkeit für Laien gewährleistet.

KI-Visualisierung: neuronale Netze und maschinelles Lernen
Neuronale Netzwerke für Sprachmodelle

Technischer Aufbau und Training

SciLingua-DE basiert auf einer Transformer-Architektur mit 13 Milliarden Parametern. Das Vortraining erfolgte auf einem gemischten Korpus aus deutschsprachigen wissenschaftlichen Zeitschriftenartikeln, Dissertationen, Pressemitteilungen von Forschungseinrichtungen sowie Populärwissenschaftstexten aus Magazinen wie Spektrum der Wissenschaft und bild der wissenschaft.

Ein besonderer Schritt im Training war das domänenspezifische Feintuning (Domain-Adaptive Pretraining) auf einem kuratierten Datensatz, der Paare von Fachtexten und entsprechenden Laienzusammenfassungen enthält. Dieser Datensatz wurde manuell von wissenschaftlichen Redakteurinnen und Redakteuren erstellt und umfasst über 180.000 Textpaare aus fünf wissenschaftlichen Disziplinen.

Anwendungsmöglichkeiten und Veröffentlichung

SciLingua-DE eignet sich für eine Reihe von Anwendungskontexten: automatische Erzeugung von Pressemitteilungen aus Forschungsberichten, Unterstützung bei der Erstellung von Laienabstracts für Forschungsanträge, Vereinfachung von Fachinhalten für Bildungsplattformen sowie die Ergänzung von Artikeln in wissenschaftlichen Zeitschriften um Kurzfassungen für das Allgemeinpublikum.

Das Modell sowie der zugehörige Trainingscode werden unter einer Creative-Commons-Lizenz veröffentlicht. Eine gehostete API-Version wird nach einem Evaluierungszeitraum von sechs Monaten ebenfalls zugänglich gemacht. Interessierte Forschungseinrichtungen können sich bereits jetzt für den Early-Access registrieren.