Das Bayessche Netzwerk von Ann-Kristin Becker ermittelt das Risiko für die Leberkrankheit genauer als gängige klinische Scores
Ordnung bringen ins systembiologische Daten-Dickicht. Ann-Kristin Becker hat im Forschungsnetzwerk LiSyM erarbeitet, welche von 500 Faktoren aus einer großen Menge an Gesundheitsdaten wie eng mit der nicht-alkoholischen Fettlebererkrankung NAFLD zusammenhängen. Das ist schwierig zu erkennen: Die Natur – auch die menschliche – folgt zwar Regeln, aber nie zu hundert Prozent. Doch mit Bayesschen Netzwerken (BN) konnte Becker alle relevanten Verbindungen herauskristallisieren. Das Modell der Doktorandin aus Professor Dr. Lars Kaderalis Arbeitsgruppe von der Universität Greifswald stellt die Zusammenhänge übersichtlich dar. Darüber hinaus sagt es das NAFLD-Risiko genauer vorher als übliche Verfahren. Derzeit integriert die Bioinformatikerin noch Genexpressionsdaten. Damit rückt womöglich ein lange gesuchter, einfacher Diagnosetest für NAFLD in greifbare Nähe.
„Bei großen Datensets ist es aufwändig, die Struktur von BN zu lernen“, sagt Becker, „Aber es lohnt sich!“ In ersten Tests hat ihr Netzwerk der Zusammenhänge von Gesundheitsfaktoren mit NAFLD präziser berechnet, wie wahrscheinlich die Erkrankung vorliegt als gängige klinische Vorhersage-Scores.1 „Außerdem kann ich mit dem Netzwerk untersuchen, welchen Einfluss verschiedene Faktorkombinationen auf das Risiko haben“, erklärt sie. Ihr BN schätzt ab, wie hoch das NAFLD-Risiko einer beispielsweise männlichen Person im Alter von 56 Jahren ist. Jede zusätzliche Information verfeinert das Ergebnis: Das Risiko des 56-Jährigen würde zum Beispiel bei hohem Körpergewicht steigen, bei niedrigem sinken. So zeigt sich, ob und – wenn ja – wie stark einzelne Faktoren und Kombinationen die Wahrscheinlichkeit beeinflussen, an NAFLD zu erkranken.
Einfache NAFLD-Diagnosetests fehlen
Ein Teilprojekt von Becker läuft noch: „Es zielt darauf ab, zusätzlich zu den epidemiologischen Daten auch Genexpressionsdaten aus dem Blut von Patienten mit einzubeziehen.“ Zuverlässige und messbare Blutparameter zur NAFLD könnten einfache Diagnosetests ermöglichen. Nach denen suchen Fachleute schon lange: Mit einer Häufigkeit von 20 bis 30 Prozent ist NAFLD in der europäischen Bevölkerung weit verbreitet. Die Erkrankung kann Leberzirrhose und Leberkrebs auslösen. Doch NAFLD schreitet oft viele Jahre unbemerkt fort. So kommt sie leider oft erst spät ans Licht, auch weil Medizinern einfache Werkzeuge zur Diagnose fehlen.
4000 anonymisierte Datensätze bilden die Grundlage
Beckers BN basiert auf Daten aus der SHIP-Studie (Study of Health in Pomerania). In deren Rahmen erhebt und dokumentiert die Community Medicine der Medizinischen Fakultät der Uni Greifswald seit 1997 allgemeine epidemiologische Gesundheitsdaten mehrerer Tausend zufällig ausgewählter Personen. 4000 anonymisierte Datensätze davon hat Becker verwendet, um ihr BN zu lernen, trainieren und testen. Der Datenschatz umfasst insgesamt rund 500 verschiedene Faktoren – viele Messwerte, aber auch Selbstauskünfte zum Lebensstil, zum eigenen Befinden und dergleichen. Einfach ausgedrückt, schätzen BN in diesen Daten zunächst Wahrscheinlichkeiten dafür ab, wie die enthaltenen Faktoren zusammenhängen. Symptom X ist in den Daten zum Beispiel bei 30 Prozent der Fälle von Krankheit Y vorhanden, sagt Becker: „Mit vielen entsprechenden Daten kann ich dann ableiten, dass auch bei einem beliebigen Patienten mit Krankheit Y das Symptom X mit einer Wahrscheinlichkeit von 30 Prozent vorliegt.“ Berechnungen, die mehr als zwei Faktoren miteinander verknüpfen, liefern Hinweise auf Abhängigkeiten und deren Stärke. In BN verbinden sich grundlegende statistische Methoden mit maschinellem Lernen und künstlicher Intelligenz.
Bei jedem Faktor zeigt sich, ob er direkt oder indirekt wirkt
„BN modellieren primär Wahrscheinlichkeitsverteilungen“, erklärt Becker. Je nach Gewichtung und Vorgaben gibt es sehr viele Möglichkeiten, wie 500 Faktoren theoretisch miteinander in Verbindung stehen könnten. Entsprechend ergeben sich anfangs viele unterschiedliche BN-Strukturen. Anschließend erfolgen Auswahl- und Optimierungsprozesse über eine Art Plausibilitäts-Score. So scheiden etwa Modelle aus, die Widersprüche aufweisen. Schließlich erreicht das BN mit der vorerst besten Struktur durch einen Bergsteigeralgorithmus ein Optimum. „Ein großer Vorteil von BN ist, dass sie gerichtet sind“, betont Becker: Es gibt in ihnen keine gegensätzlichen und zirkulären Verbindungen. Zusammenhänge zwischen Faktoren laufen stets in eine Richtung und schließen sich nie zu Kreisen – auch nicht über mehrere Stationen. So ist an jedem Faktor erkennbar, mit welchen anderen er direkt in Verbindung steht und mit welchen indirekt über einen, zwei, drei oder noch mehr Faktoren dazwischen.
Wen Details interessieren, kann Faktoren-Cluster wieder auflösen
Soweit der Standard, vom dem Becker aber abweichen musste: Ihre große Daten- und Faktorenmenge hätte beim Modellieren lange Rechenzeiten gebraucht und ein überdimensioniertes, unübersichtliches BN ergeben. „Darum habe ich Faktoren geclustert“, erklärt Becker, „Solche, die sich inhaltlich stark ähneln, habe ich quasi in einem Faktor zusammengefasst.“ So erhielt sie ein übersichtliches Netzwerk, das die wichtigsten Zusammenhänge veranschaulicht. „Die Kunst bestand darin, die Cluster nicht zu grob anzulegen“, betont die Bioinformatikerin. Außerdem hat sie dafür gesorgt, dass keine Information verloren ging: Wen Details interessieren, kann in einen gewünschten Faktorencluster ihres BN hinein zoomen und ihn wieder in Einzelfaktoren auflösen.
Die Vorhersagen sind genauer als die etablierten Kriterienkataloge
„Sehr überraschende Zusammenhänge sind zunächst keine aufgetaucht“, fasst sie zusammen: SHIP umfasst viele gebräuchliche klinische Faktoren, deren Bedeutung für verbreitete Erkrankungen gut untersucht ist. Doch als dynamisches mathematisches Modell kann Beckers BN mehr als nur Zusammenhänge aufzeigen. Es kann Hypothesen durchspielen, den Einfluss einzelner oder kombinierter Faktoren für NAFLD abschätzen und berechnen, wie wahrscheinlich eine Erkrankung ist. Die Qualität der Aussagen hat Becker mit einem Teil der SHIP-Daten geprüft, den sie vorher ungenutzt beiseite gelassen hat: Wie erwähnt, hatten die Vorhersagen ihres BN eine höhere Genauigkeit als die etablierter Kriterienkataloge1.
„Genexpressionsdaten sollten die Vorhersagen noch verbessern“
„Genexpressionsdaten sollten die Vorhersagen noch verbessern“, erwartet Becker. Bisher stammt das Wissen, wie sich die Genexpression zu Beginn und im Lauf der NAFLD verändert, fast ausschließlich aus Leberzellen. „Erste vorläufige Ergebnisse deuten an, dass zu Beginn vor allem der Eisenstoffwechsel verändert ist“, erzählt sie. Später seien auch Immun- und Entzündungsreaktionen im Blut nachweisbar. Das Probenmaterial für die Zelluntersuchungen stammt aus Leberbiopsien, kleinen operativen Eingriffen zur Gewebsentnahme. Sie sind derzeit auch notwendig, um NAFLD sicher diagnostizieren zu können. Wenn typische Symptome oder Befunde vorliegen und somit ein begründeter Verdacht besteht, finden entsprechend Biopsien statt. Die Risiken gelten als gering. Dennoch sind die Eingriffe solchen Personen, die gesund erscheinen, auf einen vagen Verdacht hin nicht zuzumuten.
Ein Bluttest für den klinischen Alltag rückt näher…
Blutproben abzugeben, empfinden die meisten Menschen dagegen als unproblematisch, sagt Becker: „Ein Bluttest für NAFLD wäre leicht in den klinischen Alltag zu integrieren.“ In SHIP wurden bei einigen Teilnehmenden auch Genexpressionsdaten aus dem Blut ermittelt. „Leider steht die Forschung noch ziemlich am Anfang dabei, NAFLD-spezifische Signaturen im Blut nachzuweisen“, erzählt Becker. Aber alles, was SHIP dazu geliefert hat, will sie in ihr epidemiologisches BN aufnehmen. Damit nimmt einerseits die Zahl der Faktoren zu. Andererseits stehen der Bioinformatikerin weniger Trainingsdaten zur Verfügung: „Ich muss einige Kniffe anwenden, um ein robustes Netzwerk zu bekommen.“ Doch Modelle können üblicherweise Erkrankungen besser vorhersagen, wenn sie zusätzlich zu epidemiologischen Basis-Daten noch Genexpressionsdaten verwenden.
Mehr Kooperation zwischen Informatik und Klinik!
Ein vollständiges BN zur NAFLD könnte in naher Zukunft also die Grundlage für diagnostische Bluttests bilden. Doch ab 2021 warten neue Aufgaben auf Becker. Vorher will sie ihr BN noch möglichst weit bringen. Vielleicht kann es ja sogar ein paar zusätzliche Stoffwechselwege identifizieren, die im Verlauf von NAFLD eine Rolle spielen? Zumindest irgendwann. Becker wäre über jeden Beitrag glücklich, mit dem ihr Netzwerk die Situation von NAFLD-Patientinnen und Patienten verbessert. Die angewandte, klinische Seite überlässt die Bioinformatikerin jedoch anderen: „Aber ich fände es gut, wenn das Beispiel meines BN den Austausch zwischen der Klinik und der Informatik fördern würde.“ Beiden Fachrichtungen sollten öfter kooperieren, findet Ann-Kristin Becker. Und noch ein Wunsch fällt ihr ein: „Mir wäre es wichtig, dass mehr Menschen ihre Angst vor statistischen Modellen verlieren.“
1 : Fatty Liver Index, Hepatic Steatosis Index, NAFLD ridge score