In Zusammenarbeit mit Marc Pawlitzki und Lars Masanneck
Die Digitalisierung der Medizin schreitet rasant voran, und große Sprachmodelle (LLMs) versprechen eine effiziente Unterstützung bei der klinischen Entscheidungsfindung. Doch wie zuverlässig sind diese Systeme wirklich? Unsere aktuelle Studie untersuchte verschiedene LLMs hinsichtlich ihrer Fähigkeit, leitlinienkonforme Antworten auf neurologische Fragestellungen zu liefern.
Methodik: Vergleich von Standard- und RAG-gestützten LLMs
Wir testeten mehrere fortgeschrittene Sprachmodelle, darunter GPT-4o, LLaMA3, Gemini-1.5 Pro und Mixtral-8x7b, mit und ohne Retrieval-Augmented Generation (RAG). Dabei wurde entweder auf statische neurologische Leitlinien oder auf Online-Suchsysteme zurückgegriffen. Insgesamt wurden 130 klinisch relevante Fragen aus 13 aktuellen neurologischen Leitlinien der American Academy of Neurology (AAN) gestellt – sowohl wissensbasierte als auch fallbasierte Fragen.
Ergebnisse: RAG verbessert Leistung, aber nicht fehlerfrei
Unsere Studie zeigte eine deutliche Überlegenheit von RAG-gestützten Systemen gegenüber den reinen Basismodellen. Besonders das GPT-4o mit dokumentbasiertem RAG schnitt mit 87 % korrekten Antworten signifikant besser ab als die Basismodelle (ca. 40–60 % korrekt). Allerdings gab es weiterhin problematische Fehler, insbesondere bei fallbasierten Fragen, wo auch RAG-Modelle oft falsche Schlussfolgerungen zogen. Zudem traten Halluzinationen von Quellen auf, was die Zuverlässigkeit von KI-generierten Literaturangaben infrage stellt.
Implikationen für die klinische Praxis
Während RAG-gestützte LLMs eine vielversprechende Ergänzung für den klinischen Alltag darstellen, sind sie noch nicht zuverlässig genug für eine unkritische Anwendung. Besonders bei Einzelfällen und komplexen klinischen Entscheidungen bleibt eine menschliche Validierung unerlässlich. Eine gezielte Weiterentwicklung dieser Systeme, etwa durch bessere Quellenauswahl und verbesserte Trainingsdaten, ist notwendig, um eine sichere und effektive Integration in die neurologische Praxis zu ermöglichen.
Fazit: KI kann eine wertvolle Unterstützung bieten, ersetzt aber keine ärztliche Expertise. Insbesondere bei personalisierten klinischen Entscheidungen müssen Modelle weiter optimiert werden, um zuverlässigere Antworten zu liefern.