Der Lehrstuhl für Epidemiologie unter der Leitung von Prof. Dr. Stefanie Klug erhält eine Förderung der Deutschen Forschungsgemeinschaft (DFG) in Höhe von mehr als 380.000 €. Bewilligt wurde der Antrag für das Projekt „Machine Learning (ML) Verfahren bei der Anwendung von Logistischer Regression in der statistischen Datenauswertung“. Im Fokus steht die Entwicklung moderner Machine-Learning-Methoden für gematchte Fall-Kontroll-Studien – ein Bereich, in dem bislang meist mit klassischen Regressionsverfahren gearbeitet wird.
„Früher haben wir für die Auswertung einer gematchten Fall-Kontroll-Studie die konditionale logistische Regression verwendet. Das Verfahren ist Standard – aber eben recht simpel wie alle einfachen Regressionsmodelle“, erklärt Dr. Gunther Schauberger, wissenschaftlicher Mitarbeiter am Lehrstuhl für Epidemiologie und Ideengeber des Projekts. „Lineare Modelle nehmen immer an, dass die Effekte von Variablen linear sind und sich einfach addieren lassen. Aber Interaktionen zwischen Variablen lassen sich auf diese Weise kaum erfassen.“ Genau hier sieht Schauberger großes Potenzial für Machine-Learning-Verfahren, die automatisch komplexere Muster erkennen können. Erste Ansätze wie Entscheidungsbäume oder der sogenannte Random Forest-Algorithmus wurden bereits erprobt – nun soll der methodische „Werkzeugkasten“ weiter ausgebaut werden.
„Die Verbreitung von Machine-Learning Methoden in der Epidemiologie hat in den letzten Jahren deutlich zugenommen. Besonders als Vorhersage-Werkzeug haben sie ihren Nutzen bewiesen“, stellt Prof. Dr. Klug klar. „Mit diesem Projekt können wir dazu beitragen, dass die Methoden auch in komplexeren Datentypen von gematchten Fall-Kontroll-Studien genutzt werden können“.
Besonders spannend ist laut Schauberger, dass sich die entwickelten Methoden nicht nur auf gematchte Fall-Kontroll-Studien anwenden lassen, sondern auch auf sogenannte Discrete Choice-Daten (dt.: Diskretes Auswahlexperiment). Gemeint sind damit Situationen, bei denen Individuen sich zwischen mehreren Alternativen entscheiden, wie bei der Verkehrsmittelwahl oder Auswahl medizinischer Behandlungen. „Das wirkt erst mal ganz anders, aber mathematisch sind die Strukturen sehr ähnlich. Auch hier eignet sich die konditionale logistische Regression und damit gelten die gleichen methodischen Begrenzungen“, erklärt der wissenschaftliche Mitarbeiter. Ziel des Projekts ist es daher, einen methodischen Rahmen zu entwickeln, der für beide Datentypen funktioniert und dabei über die bisherigen Möglichkeiten klassischer Verfahren hinausgeht.
Konkrete Anwendung findet das Projekt beispielsweise in einer Studie zur Früherkennung von Zervixkarzinomen, bei der die regelmäßige Teilnahme an Screening-Programmen untersucht wurde. „Die Regelmäßigkeit von Screeningbesuchen ist hierbei unsere Expositionsvariable. Doch daneben gibt es viele weitere Einflussfaktoren – etwa der sozioökonomische Hintergrund, die Ernährung, der BMI oder die körperliche Aktivität. Zwischen diesen können verschiedene Interaktionen bestehen, und genau da kommt Machine-Learning ins Spiel.“
Die DFG-Förderung ist auf drei Jahre angelegt. Ein Großteil der Mittel fließt in Personalkosten: Ab Oktober wird ein Doktorand eingestellt, der sich in Vollzeit der methodischen Entwicklung widmen wird. Langfristig soll das Projekt nicht nur die epidemiologische Forschung voranbringen. Schaubergers Ziel ist es, den Werkzeugkasten von Gesundheitswissenschaftlern und Medizinern zu erweitern. „Ich will als Statistiker die Methoden verbessern, mit denen andere zu neuen Ergebnissen kommen“, betont er. „Wenn man bessere Werkzeuge hat, dann werden die Ergebnisse verlässlicher und realitätsnäher.“ Besonders wichtig sei das überall dort, wo komplizierte Zusammenhänge eine Rolle spielen: „Die Welt ist nun mal komplex – sie folgt meistens keinem einfachen linearen Modell.“
Dass sich diese Verfahren nicht nur auf Gesundheitsdaten anwenden lassen, ist für Schauberger ein zusätzlicher Anreiz: „Für mich persönlich ist es methodisch spannend, dass wir die Modelle auch auf ganz andere Datenarten übertragen können – zum Beispiel auf politische Entscheidungsprozesse. Mit sehr ähnlichen Methoden lassen sich völlig unterschiedliche wissenschaftliche Fragen beantworten. Ich werde dazu mit einer Politikwissenschaftlerin aus Spanien zusammenarbeiten, denn auch Wahlentscheidungen sind Discrete Choice-Daten.“
Zur Homepage des Lehrstuhls für Epidemiologie
Kontakt:
Prof. Dr. Stefanie J. Klug, MPH
Ordinaria
Lehrstuhl für Epidemiologie
TUM Campus im Olympiapark
Am Olympiacampus 11
80809 München
Tel.: 089 289 24951
E-Mail: stefanie.klug(at)tum.de
Dr. Gunther Schauberger
Lehrstuhl für Epidemiologie
TUM Campus im Olympiapark
Am Olympiacampus 11
80809 München
Tel.: 089 289 24955
E-Mail: gunther.schauberger(at)tum.de
Text: Jasmin Schol
Fotos: Privat