Machine Learning für Schädel-CTs – neue Wege für mehr Daten und bessere Modelle 

In Zusammenarbeit mit Lars Masanneck

Maschinelles Lernen und teil-automatisierte Auswertung von klinischen/radiologischen Daten bieten erhebliche Chancen, um eine qualitativ hochwertige und zeitnahe Auswertung bzw. Befundung sicherzustellen. Neuroradiologische Untersuchungen und Befundungen tragen zur korrekten Diagnose und Behandlung vieler neurologischer Krankheitsbilder, wie bspw. der Multiplen Sklerose oder dem Schlaganfall, bei. Durch die Vielzahl an Untersuchungen und die oft erheblichen Anforderungen an eine korrekte Befundung sowie den hohen Digitalisierungsgrad der radiologischen Daten bieten sich gerade in der Neuroradiologie Unterstützungssysteme auf Basis von Maschinellem Lernen an.

Um die automatisierte Klassifizierung von Bilddateien und somit Vorbefunde zu ermöglichen, müssen die entsprechenden Algorithmen dazu zunächst trainiert werden. Solche Algorithmen folgen dabei üblicherweise dem Prinzip des überwachten Lernens (supervised learning), bei welchem zu jeder Bilddatei eine entsprechende Annotation/Vorklassifizierung vorliegt. Anhand dieser Annotation lernt der Algorithmus folglich die pathologischen Muster und die Zuteilung zu einer Diagnosegruppe. Um bestmögliche Ergebnisse in der Erkennung von Pathologien und Segmentierung von Bildausschnitten zu erzielen, sind dabei häufig Annotationen von erfahrenen Radiologen und Radiologinnen notwendig, welche auf Schnittbild-Ebene Auffälligkeiten markieren und beschreiben. Eine solche Annotation ist allerdings sehr aufwendig und entsprechend gut notierte Datensätze häufig öffentlich nur unzureichend verfügbar. Weitere Herausforderungen sind dabei, dass der Datensatz hinsichtlich der Quelle der eingespeisten Bilddaten und der annotierenden Experten vielfältig sein sollte, damit der Algorithmus auch unter anderen Umstände wie bspw. anderen Gerätetypen und Regionen akkurate Ergebnisse liefert. Für gute Ergebnisse sind aus diesen Gründen häufig große Datenmengen von vielen Zehntausenden annotierten Schnittbildern notwendig, was nicht mehr die eigentliche Erstellung des Algorithmus, sondern die Zusammenstellung des kurierten Datensatzes zur größten Herausforderung macht.

Am Beispiel eines automatisierten Klassifikationssystems für Schädel-CT Scans, welches die vier Pathologien Blutung, Ischämie, Fraktur und Tumoren erkennen kann, stellten Guo et al. eine vielversprechende Lösung für diese aktuellen Herausforderungen vor. In der Arbeit Deep learning with weak annotation from diagnosis reports for detection of multiple head disorders: a prospective, multicentre study stellten sie ein System namens ‚RoLo‘ vor, welches das die aufwendige Annotation durch Spezialisten umgeht. Dies geschieht, indem vergangene CT-Scans mit den entsprechenden Patientenakten und Radiologiebefunden verknüpft werden. Eine solche Verknüpfung ermöglicht zwar keine genaue Annotation auf der Ebene des einzelnen CT-Schnitts, gibt dem Model aber Anhaltspunkte, welche Pathologie im Scan zu finden sein könnte. Durch einen sogenannten ‚schwachen überwachten‘ (weak supervised) Algorithmus geht das System dabei nicht davon aus, dass alle so erhaltenen Label korrekt sind, sondern sortiert in späteren Schritten mutmaßlich falsche Trainingsgrundlagen selbstständig wieder aus. Die Annotation auf Schnittbild-Ebene bringt es sich somit letztlich selber bei, eine ungefähre Einordnung des gesamten CT-Scans reicht ‚RoLo‘ im Gegensatz zu vielen herkömmlichen Modellen aus.

Um die Leistungsfähigkeit des Algorithmus zu testen, wählten die chinesischen Forscher dazu aus über 600.000 CT Scans des Pekinger Chinese PLA General Hospitals 107.754 axiale Schädel-CT Scans aus, von welchen ebenfalls Diagnosebefunde vorlagen. Von den ausgewählten Scans zeigten ca. 21.000 eine Blutung, ca. 25.000 eine Ischämie, ca. 20.000 eine Schädelfraktur, ca. 4.000 einen Tumor- und knapp 47.000 einen Normalbefund.

Dabei konnte der Algorithmus mit hoher Sicherheit (Area under the curve (AUC) 0.958 – 0.991, abhängig von der Pathologie) vorhersagen, welche Pathologie(n) in dem CT-Scan zu finden sind und wo sich diese befinden. Im Mittel bewegte es sich somit auf dem Niveau erfahrener Radiolog:innen, wobei die Kombination von Mensch und Algorithmus noch weitere Performancevorteile brachte. Das Model wurde im Anschluss an verschiedenen prospektiven, retrospektiven und Multicenter Datensätzen aus anderen Kliniken und Ländern getestet, wobei sich auch hier exzellente Ergebnisse zeigten (niedrigste AUC 0.955). Dabei zeigte die fehlertolerante Architektur deutliche Vorteile in der Handhabung und führte sogar zu besseren Ergebnissen, als manche detailliert annotierte Datensätze.

Der verwendete Code ist auf Grundlage von Open Source Frameworks geschrieben und frei verfügbar (http://xufeng.site/AutoHeadCAD). Das System ist dabei Aufgaben-agnostisch, generalisierbar und könnte ebenso für andere Fragestellungen auf CT-Daten trainiert werden. Allerdings heben die Autoren diesbezüglich hervor, dass entsprechende große Datensätze von mehr als 100.000 CT-Scans mit dazugehörigen Textbefunden oft schwierig zu sammeln sind und das Trainieren des Algorithmus auf solchen Datenmengen erhebliche Hardwareressourcen voraussetzt.

Insgesamt zeigen Gao et al. wie man in Zukunft mit weniger Aufwand mehr Informationen aus der Praxis zum Training von Machine Learning Modellen verwenden kann. Mit den gezeigten Ergebnissen für Schädel-CT-Analysen wäre dabei auch in der Praxis für zeitkritische Befunde oder Settings ohne erfahrene Radiologen schnell ein Mehrwert geschaffen. Dabei werden die Möglichkeiten und Grenzen von solchen Entscheidungs-Unterstützungssystemen in der Neuroradiologie und Neurologie in der Arbeit gut aufgezeigt.