Künstliche Intelligenz hält Einzug in die wissenschaftliche Bewertung und stellt etablierte Regeln in Frage.
Künstliche Intelligenz hält Einzug in die wissenschaftliche Bewertung und stellt etablierte Regeln in Frage.

Künstliche Intelligenz (KI) ist mittlerweile fest im Peer-Review-Verfahren etabliert und aus der wissenschaftlichen Forschung nicht mehr wegzudenken. Eine internationale Umfrage des Verlags Frontiers unter rund 1.600 Forschenden in 111 Ländern zeigt, dass die Mehrheit der Gutachter bereits KI-Tools zur Prüfung eingereichter Manuskripte eingesetzt hat. Diese rasante Entwicklung, die oft im Widerspruch zu den Empfehlungen der Verlage steht, verdeutlicht die wachsende Diskrepanz zwischen der tatsächlichen Praxis und den bestehenden regulatorischen Rahmenbedingungen. Laut den am 11. Dezember veröffentlichten Ergebnissen gibt mehr als die Hälfte der Forschenden an, KI im Peer-Review-Verfahren genutzt zu haben. Fast ein Viertel berichtet sogar von einer verstärkten Nutzung im vergangenen Jahr. Dieses Wachstum bestätigt die zunehmende Verbreitung von Tools auf Basis großer Sprachmodelle in der akademischen Praxis, insbesondere angesichts des steigenden Arbeitsaufwands und der zunehmenden Komplexität der begutachteten Manuskripte. Die Beauftragten für wissenschaftliche Integrität bei Frontiers haben beobachtet, dass diese Praxis weit verbreitet ist und die ursprünglichen Richtlinien deutlich übertrifft. Viele Verlage raten nach wie vor von der Nutzung externer Tools zur Bearbeitung unveröffentlichter Manuskripte ab, vor allem aufgrund von Bedenken hinsichtlich Vertraulichkeit und geistigem Eigentum. In der Praxis haben Forschende diese Technologien jedoch bereits in ihre Arbeitsabläufe integriert, mitunter ohne dies formell offenzulegen.

Zwischen Zeitersparnis und ethischen Grauzonen

Die Umfrage ermöglicht ein besseres Verständnis der Art dieser Nutzung. Die meisten beteiligten Forschenden nutzen KI, um ihre Bewertungsberichte zu erstellen, indem sie Kommentare strukturieren oder ihre Analysen neu formulieren. Andere verwenden sie, um Artikel schnell zusammenzufassen, methodische Schwächen aufzudecken, Referenzen zu überprüfen oder Hinweise auf mögliche Probleme mit der wissenschaftlichen Integrität zu erkennen, wie etwa textuelle Ähnlichkeiten oder Inkonsistenzen in visuellen Daten. Diese Praktiken werfen jedoch zahlreiche Fragen auf. Experten für Forschungsethik betonen, dass KI zwar bestimmte technische Aufgaben erleichtern kann, aber menschliches wissenschaftliches Urteilsvermögen nicht ersetzen kann. Aktuelle Werkzeuge eignen sich hervorragend für die Neuformulierung und Synthese, haben aber weiterhin Schwierigkeiten, den tatsächlichen Neuheitswert einer Arbeit, die konzeptionelle Stimmigkeit einer Hypothese oder die Relevanz einer Interpretation zu beurteilen. 

Mehrere Forscher haben die Leistungsfähigkeit dieser Modelle auch in der Praxis getestet.

Jüngste Experimente zeigen, dass KI-generierte Gutachten zwar häufig Form und Tonfall eines wissenschaftlichen Berichts imitieren, dabei aber oberflächlich bleiben. Sachliche Fehler, methodische Ungenauigkeiten und ein Mangel an differenzierter Kritik werden regelmäßig beobachtet, selbst wenn die Tools mit detaillierten Anweisungen und einem bereitgestellten wissenschaftlichen Kontext verwendet werden. Angesichts dieser Situation stehen Verlage unter Druck. Einige, wie Frontiers, erlauben den kontrollierten Einsatz von KI, sofern dieser offengelegt und auf unterstützende Funktionen beschränkt ist. Andere, vorsichtigere Verlage äußern weiterhin verhaltenes Vertrauen in den tatsächlichen Beitrag dieser Technologien zum Peer-Review-Verfahren. Parallel durchgeführte Umfragen anderer Branchenakteure deuten ebenfalls darauf hin, dass viele Forschende der Fähigkeit von KI, die Qualität von Gutachten wesentlich zu verbessern, skeptisch gegenüberstehen. Für Beobachter geht es in der Debatte nicht mehr darum, ob KI eingesetzt wird, sondern wie sie eingesetzt werden sollte. Es werden immer lautere Forderungen laut, die redaktionellen Richtlinien an diese neue Realität anzupassen, indem klare Regeln definiert, die Transparenz erhöht und die volle Verantwortlichkeit menschlicher Gutachter sichergestellt wird. Ohne diese Anpassung besteht die Gefahr, dass sich intransparente Praktiken verfestigen und das Vertrauen in eine zentrale Säule der wissenschaftlichen Produktion untergraben.