Typ-2-Diabetes gehört zu den häufigsten chronischen Erkrankungen und ist mit einem erhöhten Risiko für schwerwiegende kardiovaskuläre Komplikationen wie Schlaganfall und Herzinfarkt verbunden. Diese stellen nicht nur eine erhebliche gesundheitliche Gefahr dar, sondern führen auch zu hohen Kosten im Gesundheitssystem. Eine frühzeitige Prävention kann das Risiko jedoch deutlich senken. Bisher stützen sich viele Risikovorhersagemodelle auf klinische Daten, die oft unsystematisch erfasst werden. Durch die Digitalisierung und die Nutzung großer Gesundheitsdatensätze, etwa von Krankenkassen, eröffnen sich neue Möglichkeiten für eine gezielte Prävention.
Daraus ergibt sich die Überlegung, ob Risikoprädiktionsmodelle auf Basis dieser Daten valide Vorhersagen für Herzinfarkte und Schlaganfälle treffen können. Das Forscherteam um Prof. Dr. Michael Laxy, Leiter der Professur für Public Health und Prävention, und seine wissenschaftliche Mitarbeiterin Dr. Anna-Janina Stephan gehen dieser Frage in einer neuen Studie nach. Sie greifen dabei auf deutsche Krankenkassendaten im Zeitraum von 2014 bis 2019 mit 287 potenziell relevanten Variablen zur Vorhersage des 3-Jahres-Risikos für Herzinfarkt und Schlaganfall zurück. Die Ergebnisse wurden unter dem Titel „Development and validation of prediction models for stroke and myocardial infarction in type 2 diabetes based on health insurance claims: does machine learning outperform traditional regression approaches?“ im medizinischen Journal „Cardiovascular Diabetology“ publiziert. Das Journal hat einen Impact-Faktor von 8,5.
Prof. Laxy erläutert: „Dies war ein sehr herausforderndes Projekt. Sowohl national als auch international gab es bisher wenige Studien, die einen ähnlichen Ansatz verfolgt haben. Unsere Studie zeigt, dass es grundsätzlich möglich ist, basierend auf Routinedaten von Krankenkassen Personen mit hohem kardiovaskulären Risiko von solchen mit niedrigem kardiovaskulären Risiko zu unterscheiden. Die Güte der Vorhersagemodelle ist vergleichbar mit existierenden epidemiologischen Modellen, die auf klinischen Daten basieren.“
Forschungsziel war es, Vorhersagemodelle für Schlaganfall und Herzinfarkt bei Patienten mit Typ-2-Diabetes zu entwickeln und zu validieren. Dr. Stephan erklärt: „Die erste Frage war: Reichen uns die Informationen der Krankenkassen, die eigentlich zu ganz anderen Zwecken erhoben worden sind, überhaupt aus, um damit ein Risiko prädizieren zu können? Und zweitens: Reicht es, wenn wir relativ simple Modelle, die es schon sehr lange gibt, verwenden, um diese Prädiktionsmodelle zu entwickeln, oder bekommen wir eine bessere Prädiktion, wenn wir State-of-the-Art-Machine Learning-Methoden verwenden?“
Im Rahmen der Studie wurden also herkömmliche Regressionsmethoden mit modernen Maschinellen Lernverfahren, einschließlich Deep Learning, verglichen. Es wurde ein Train-Test-Split-Ansatz angewendet, folgende Modellierungsansätze wurden getestet: logistische Regression mit/ohne Variablenselektion, LASSO-Regularisierung, Random Forest (RF), Gradient Boosting (GB), Multi-Layer-Perceptron (MLP) und Feature-Tokenizer-Transformer (FTT). Die Modelle wurden hinsichtlich Diskriminierung (AUPRC, AUROC) und Kalibrierung bewertet.
Insgesamt umfasste die Studie 371.006 Patientinnen und Patienten (Durchschnittsalter 67,2 Jahre). 3,5 Prozent der erfassten Personen (n = 13.030) erlitt einen Herzinfarkt, 3,4 Prozent (n = 12.701) einen Schlaganfall. Die Ergebnisse zeigen, dass Maschinelles Lernen (einschließlich Deep Learning) keine signifikant bessere Leistung als herkömmliche Regressionsmethoden erzielte. Die Vorhersagemodelle auf Basis von Krankenkassendaten erreichten eine maximale Diskriminationsleistung von etwa 0,09 (AUPRC) und 0,7 (AUROC). Während diese Werte vergleichbar mit existierenden epidemiologischen Modellen sind, konnte Maschinelles Lernen keine deutlichen Vorteile gegenüber traditionellen Methoden bieten. Dies deutet darauf hin, dass die Komplexität der Daten bereits ausgeschöpft wurde, bevor der Algorithmus einen signifikanten Unterschied machen konnte.
„Ich möchte betonen, dass dieses Ergebnis nicht unbedingt aussagt, dass Machine Learning grundsätzlich nicht besser funktionieren kann. Wir haben uns in der Vorauswahl von Prädiktoren, die wir den Modellen überhaupt zur Verfügung gestellt haben, sehr auf die Literatur gestützt. Da müsste nochmal versucht werden, mit anderen Prädiktoren zu arbeiten, von denen wir jetzt noch gar nicht wissen, ob sie mit Diabetes und mit Diabetes-Komplikationen verbunden sind. Man müsste den Modellen wirklich die Möglichkeit geben, ihre Vorhersagekraft auch dadurch zu entwickeln, dass sie Muster in den Daten, die wir noch nicht verstehen, identifizieren und mit einbeziehen“, ordnet Dr. Stephan die Befunde ein.
In zukünftige Studien sollte entsprechend untersucht werden, ob andere Methoden zur Merkmalserstellung die Vorhersagegenauigkeit verbessern können. Außerdem brauche es laut Dr. Stephan weitere, externe Validierung: „Wir haben die Modelle bisher ja nur anhand der Daten von einer Krankenkasse entwickelt und getestet. Im nächsten Schritt müsste man schauen, ob die Modelle genauso gut mit Versichertendaten von einer anderen Kasse oder mit Versichertendaten aus einem späteren Zeitraum funktionieren.“
Mit dem 2024 eingeführten „Gesundheitsdatennutzungsgesetz“ hat Deutschland außerdem für die Zukunft den Weg geebnet, um Versicherungsdaten gezielt für Risiko-Screenings zu nutzen. Im Hinblick auf das Gesetz erklärt Dr. Stephan: „Es ermöglicht den Versicherungen zukünftig, solche Prädiktionsmodelle tatsächlich in der Regelversorgung anzuwenden. Damit können sie auf ihre Versicherten zugehen und diese informieren, einen Arzt aufzusuchen, um potenzielle Risiken überprüfen zu lassen. Im Grunde genommen ist die Anwendungsrelevanz von solchen Modellen und auch die Anwendbarkeit in einem echten Versorgungskontext mit dem Gesetz stark gestiegen.“
Zur Homepage der Professur für Public Health und Prävention
Kontakt:
Prof. Dr. Michael Laxy
Professur für Public Health und Prävention
Technische Universität München
Georg-Brauchle-Ring 60/62
80992 München
Tel.: 089 289 24977
E-Mail: michael.laxy(at)tum.de
Dr. Anna-Janina Stephan
Professur für Public Health und Prävention
Technische Universität München
Georg-Brauchle-Ring 60/62
80992 München
Tel.: 089 289 24984
E-Mail: anna-janina.stephan(at)tum.de
Text: Jasmin Schol
Fotos: Pixabay/Privat