Wichtige Zusammenhänge aus großen Datenmengen herausschälen

Ein Interview dazu, wie Bayessche Netzwerke auch in der Systembiologie aufdecken, welche Faktoren wie eng/stark voneinander abhängen

Den Wald vor lauter Bäumen übersehen? Relevante Zusammenhänge in riesigen, vielfältigen Datenmengen aufzudecken, ist schwierig. Die Bioinformatikerin Ann-Kristin Becker hat im systembiologischen Forschungsnetzwerk LiSyM mit Hilfe von Bayesschen Netzewerken (BN) übersichtlich herausgearbeitet, welche unter 500 biomedizinischen Parametern mit der nicht-alkoholischen Fettlebererkrankung NAFLD in Verbindung stehen und wie eng. Dazu hat Becker am Institut für Bioinformatik an der Universitätsmedizin Greifswald die Herangehensweise an BN verfeinert. So konnte die Doktorandin in der Arbeitsgruppe von Professor Dr. Lars Kaderali den manuellen Aufwand und die Rechenzeiten senken. Trotzdem bekamen ihre Ergebnisse höhere Aussagekraft. Die Vorgehensweise eignet sich auch für Fragestellungen abseits der Biomedizin. Im Interview erklärt Becker, was sie optimiert hat und wie BN grundsätzlich funktionieren.

1. Was sind überhaupt Bayessche Netzwerke?

Ann-Kristin Becker: Das sind, einfach gesagt, Modelle, die Zusammenhänge zeigen. Sie können beispielsweise zeigen, welche Faktoren das Risiko für eine Erkrankung erhöhen oder was passiert, wenn mehrere solcher Faktoren gemeinsam auftreten. Mit den Netzwerken lässt sich auch beurteilen, ob diese Zusammenhänge direkt oder indirekt sind und ob stark oder schwach. Ihren Namen haben BN übrigens nach dem englischen Mathematiker und Statistiker Thomas Bayes bekommen, der im 18. Jahrhundert gelebt hat.

2. What can BNs be used for besides biomedicine?

Becker: In der Bioinformatik und Musteranalyse ganz allgemein. Verbreitete Anwendungsgebiete sind zum Beispiel die Spracherkennung, Bildverarbeitung, medizinische Diagnose und Analyse des Kaufverhaltens, das Filtern von Spam und viele andere. Hier kalkulieren BN, wie gut Faktoren oder Kombinationen von Faktoren einem Muster entsprechen, und liefern dazu eine Wahrscheinlichkeit. Bei Emails entscheiden sie in Sekundenbruchteilen: Spam oder nicht? Sie sind überall da einsetzbar, wo viele Faktoren zusammenspielen, und Entscheidungen getroffen werden müssen.

3. Können Sie ein ganz einfaches Beispiel genauer beschreiben?

Source: Wikipedia

Becker: Wikipedia hat ein sehr anschauliches Beispiel mit drei Faktoren oder Knoten, wie diese Variablen in BN heißen: „Regen“, „Rasensprenger“ und „Gras nass“. Wenn es regnet oder der Rasensprenger läuft, wird der Rasen nass.
In der zugehörigen Grafik zeigt das je ein Pfeil an, der von den beiden oberen Knoten zum Knoten „Gras nass“ führt. Vom „Regen“ zum „Rasensprenger“ geht ein weiterer Pfeil. Der steht für ihre Verbindung – dafür dass der Sprenger eher nicht läuft, wenn es regnet.

4. Können Pfeile zwischen zwei Knoten auch entgegengesetzt verlaufen?

Becker: Nein, in BN haben alle Zusammenhänge nur eine Richtung – so wie alle Pfeile in der Wikipedia-Grafik. Die Pfeile sind so etwas wie Einbahnstraßen, die außerdem nie zu einem Kreisverkehr führen dürfen, auch nicht über drei, vier oder mehr Knoten. So bekomme ich ein gerichtetes Netzwerk. In ihm lässt sich sehen, wie ein Knoten mit anderen in Verbindung steht – ob direkt oder indirekt über eine oder mehrere Stationen.

5. Woher stammen die Wahrscheinlichkeiten, die in den Tabellen stehen?

Becker: Normalerweise aus den Daten, die mir zur Verfügung stehen. Aber ich vermute, das Wikipedia Beispiel ist fiktiv. Würde es auf echten Daten basieren, hätte es laut der Tabelle am Knoten „Regen“ offenbar in 20 Prozent der erfassten Fälle geregnet und in 80 Prozent nicht. Mit vielen entsprechenden Daten kann ich dann Wahrscheinlichkeiten ableiten oder abschätzen – im Wikipedia Beispiel also, dass auch die Wahrscheinlichkeit, an einem zufälligen Tag Regen zu beobachten, bei 20 Prozent liegt. Die Tabelle am Knoten „Rasensprenger“ würde bei echten Daten anzeigen: An Tagen, an denen es geregnet hat, ist der Rasensprenger nur in einem von hundert Fällen gelaufen, also mit einer Wahrscheinlichkeit von 0,01 Prozent, an Tagen ohne Regen dagegen in 40 Prozent der Fälle. Der große Unterschied zwischen den beiden Werten deutet auf eine Abhängigkeit der Knoten hin: Regen hat im fiktiven Wikipedia BN offensichtlich einen Einfluss darauf, ob der Rasensprenger läuft oder nicht.

6. Wer oder was ermittelt diese Abhängigkeiten?

Becker: Für BN gibt es viele fertige Tools, hinter denen Maschinelles Lernen und das Konzept moderner künstlicher Intelligenz stecken. Meistens müssen zigtausende mögliche Modelle getestet werden, um dasjenige zu finden, das am besten passt. Der Aufwand dafür steigt mit der Menge an Daten und der Zahl der Faktoren. Für meine Fragestellung habe ich aus medizinischen Daten von 4000 Patienten gelernt, welche Abhängigkeiten oder Zusammenhänge zwischen 500 verschiedenen Faktoren bestehen. Das passiert natürlich automatisch mit Hilfe von Algorithmen. Am Ende erhalte ich dann immer ein gerichtetes Netzwerk, das alle Zusammenhänge zwischen allen Faktoren aus meinen Daten zeigt.

7. Wie stelle ich einen Bezug zum gewünschten Faktor her, bei Ihnen also zur NAFLD?

Becker: Ich schaue mir einfach den Bereich des Netzwerks an, der den gewünschten Faktor enthält. Sämtliche Faktoren, die darin durch Pfeile direkt oder über einen weiteren Knoten mit „meinem“ Knoten NAFLD verbunden sind, haben zu ihm einen starken Zusammenhang. Denn sind BN ja gerichtet. Deshalb liegen alle anderen Faktoren, die über mehrere anderen Knoten mit NAFLD verbunden sind, jetzt am Rand des Ausschnitts oder außerhalb. Diese Faktoren haben zu meinem Bezugsfaktor nur einen schwachen oder keinen Zusammenhang. Das ist ein großer Vorteil von guten BN: Sie unterscheiden zwischen direkten und indirekten Einflüssen.

In Bayesschen Netzwerken werden mit Hilfe von Algorithmen BN-Modelle entwickelt, die direkte und indirekte Beziehungen zwischen Faktoren darstellen.

8.Lassen sich Korrelationen und kausale Zusammenhänge unterscheiden?

Becker: Das ist auch eine Frage der Interpretation. BN beschreiben zunächst einmal nur Abhängigkeiten. Hätte das Wikipedia Beispiel eine reale Grundlage, würde bei ihm etwa die Wahrscheinlichkeit dafür, dass das Gras nass ist, stark davon abhängen, ob es regnet oder ob der Sprinkler an ist. Der Rasen ist mit hoher Wahrscheinlichkeit nass, wenn es regnet oder der Sprinkler an ist. Wenn beides nicht der Fall ist, ist diese Wahrscheinlichkeit natürlich viel niedriger. Der Regen ist also eine mögliche Ursache für die Nässe – das zeigt der Pfeil an. Ob sich Abhängigkeiten auch wirklich als kausale Zusammenhänge interpretieren lassen, kommt dann aber auf die Qualität des BN an und auf die Qualität meiner Daten. Das Netzwerk liefert mir zumindest Hypothesen, die ich weiter überprüfen kann.

9. Was haben Sie an der Herangehensweise verändert?

Becker: Ich hatte ja ungefähr 500 Faktoren. Da gibt es einfach zu viele Möglichkeiten, wie sie zusammenhängen können. Das Lernen des Modells ist daher sehr aufwendig, und am Ende käme ein ausuferndes Netzwerk dabei heraus, das auch nur schwer zu verstehen ist. Aber ich wollte eine übersichtliche Grafik bekommen, aus der sich die wichtigsten Zusammenhänge schnell ablesen lassen. Außerdem musste ich die Rechenzeiten am Computer in Grenzen halten. Darum habe ich, stark vereinfacht ausgedrückt, eine Cluster-Methode verwendet, die meine Faktoren zunächst sinnvoll in Gruppen zusammenfasst.

10. Was bringt es, Faktoren zu gruppieren?

Becker: Ich bekomme weniger Knoten. Ich habe ähnliche Faktoren wie beispielsweise Körperfettgehalt, Body Mass Index und andere, die eng mit dem Körpergewicht in Verbindung stehen, gruppiert und zu einem Knoten gemacht. Ein Netzwerk zwischen weniger Knoten ist viel einfacher zu lernen. Um aber so nichts zu übersehen, was für die Krankheit NAFLD wichtig ist, habe ich noch ein Verfahren entwickelt. Damit habe ich die wichtigsten Gruppen – also die, die eng über Pfeile mit NAFLD verbunden waren – dann wieder schrittweise in kleinere Gruppen aufgeteilt. So kann ich sozusagen automatisch an den Bereich des Netzwerks heranzoomen, der für NAFLD von Bedeutung ist. Dieser Ausschnitt wird dann detailliert dargestellt, aber das Netzwerk bleibt trotzdem übersichtlich.

11. Was ist notwendig, um mit BN arbeiten zu können?

Becker: Man sollte die Grundlagen von BN kennen und verstehen. Mit ein bisschen Wissen aus der Informatik und Wahrscheinlichkeitsrechnung kann man sich da einlesen. Grundsätzlich ist es nicht so schwierig, mit BN zu arbeiten. Schwierig wird es erst, wenn die Datenmenge sehr groß und heterogen ist. Als Datenformat sind Tabellen günstig. Aber es gibt viele verschiedene Methoden, um mit BN zu arbeiten, und sie eignen sich für viele verschiedene Daten und Datenformate.

12. Waren Sie am Ende zufrieden und würden BN sowie Ihre Herangehensweise weiter empfehlen?

Becker: Mein Projekt verlief sehr erfolgreich. Ich würde BN vor allem für fachübergreifende Zusammenarbeiten empfehlen, da solche Netzwerke Zusammenhänge meistens anschaulicher zeigen als reine Statistiken. Mein Vorgehen mit den Clustern hat große Vorteile, wenn viele heterogene Daten zusammenkommen, so dass einzelne Fachleute die Datenlage nur schwer überblicken. Dann sinken der manuelle Aufwand und die Rechenzeiten, aber gleichzeitig nimmt die Aussagekraft des BN zu.

Sonderbeiträge