Sorry, you need to enable JavaScript to visit this website.
Prof. Iris Pigeot_Big Data

Digitalisierung

„Nach Zusammenhängen in großen Datensätzen zu suchen, kann gefährlich sein.“

Prof. Dr. rer. nat. Iris Pigeot, Direktorin des Leibniz-Instituts für Präventionsforschung und Epidemiologie – BIPS im Gespräch über Big Data.

Frau Professor Pigeot, macht Big Data die Epidemiologische Forschung überflüssig?

Iris Pigeot: Nein, in keiner Weise. Denn Big Data sind schlicht große Datensätze, die unstrukturiert, zeitnah und nicht homogen gesammelt werden. Es sind also keine Forschungsdaten. Big Data, das klingt sexy, wird aber überstrapaziert; da laufen wir Gefahr, dass Forschungsdaten beschädigt werden, wenn wir sie in einen Topf mit Big Data packen.

 

Wieso?

Pigeot: Forschung verlangt Struktur. Wenn ich Daten hinzuziehe, die nicht zu Forschungszwecken erhoben worden sind, muss ich sie strukturieren. Ein Beispiel: Wenn ich wissen möchte, ob die körperliche Aktivität von Kindern abhängig vom Wetter ist, dann kann ich mir die Wetterdaten heranziehen, muss aber dafür sorgen, dass ich das Wetter zu dem Zeitpunkt anschaue, zu dem die Kinder nicht in der Schule saßen.

 

Das klingt nach Fleißarbeit.

Pigeot: Absolut. Wir haben am BIPS in einem Projekt zur Arzneimittelsicherheit eine Datenbank aufgebaut mit Daten von 22 Millionen Versicherten in Deutschland über Arzneimittelverschreibungen, ambulante Diagnosen, Krankenhauseinweisungen sowie Entlassungsdiagnosen. Das ist ein riesiger Datensatz, der ursprünglich nicht für die Forschung erhoben worden ist, sondern für die Rückerstattung. Wir verbringen viel Zeit damit, diese Daten in einen Zustand zu überführen, in dem wir mit ihnen forschen können.

 

Wie ist es mit den neuen so genannten Supercomputern und Künstlicher Intelligenz – könnten die dabei helfen, solche Daten zu strukturieren?

Pigeot: Algorithmen müssten diese Daten qualitativ überprüfen – und ob die automatisch generiert werden können, weiß ich nicht. Lernende, also sich selbst aktualisierende Algorithmen, kann ich mir vorstellen. Ich bleibe aber dabei: Man muss erst einmal eine Datenstruktur verstanden haben, um überhaupt solche Algorithmen zu entwickeln. Es geht nicht ohne den Menschen, zumindest bei uns. Sonst sitzen sie auch simplen Zusammenhängen auf.

 

Zum Beispiel?

Pigeot: Es gibt ein ganz altes Beispiel, wonach in bestimmten Regionen viele Kinder geboren werden, wenn auch viele Störche dort leben.  Das hat natürlich nichts damit zu tun,  dass Störche ursächlich für große Anzahlen von Neugeborenen verantwortlich sind. Solche nicht-ursächlichen Zusammenhänge lassen sich immer finden und das ist die Gefahr beim Suchen in Big Data: Sie haben einen riesigen Datentopf, in dem alles Mögliche gesammelt worden ist, und fangen an, nach beliebigen Zusammenhängen darin zu suchen. Und die finden Sie dann auch. Deshalb halte ich es für sehr gefährlich, in großen Datensätzen allein nach Zusammenhängen zu fahnden.

"Wir verbringen viel Zeit damit, diese Daten in einen Zustand zu überführen, in dem wir mit ihnen forschen können."

Wird Big Data also überschätzt?

Pigeot: In solchen Datensätzen schlummert ein enormes Potenzial. Man muss sie halt sortieren und strukturieren, um hypothesengesteuert die wirklich statistisch signifikanten Ergebnisse zu finden. Aber selbst da ist Vorsicht geboten: Man kann auch Ergebnisse als statistisch signifikant einstufen, obwohl sie z. B. biologisch nicht relevant sind. Sie tauchen einfach nur deshalb als „statistisch signifikant“ auf, weil der Datensatz so groß ist.

 

Könnte eine übergeordnete Stelle die Qualität von Datensätzen prüfen und zertifizieren?

Pigeot: Dafür sind die Datenkörper zu unterschiedlich, das ist keiner einzigen Stelle zuzumuten. Ich glaube immer noch, dass der einzelne Forscher die Qualität seiner gesammelten Daten überprüfen muss, dass er viel Zeit dafür investieren sollte.

 

Wo bringt das Sammeln von Big Data denn schon heute Vorteile?

Pigeot: Wenn Sie sich vorstellen, dass Autohersteller in ihren Fahrzeugen automatisch ganz viele Daten zu Fahrverhalten, Reaktionsgeschwindigkeiten und Unfällen sammeln, entwickeln sich Kenntnisse über die Schnittstelle Fahrer-Auto. Daraus entstehen Techniken, um Unfälle zu vermeiden. Das fing an mit der hinteren Einparkhilfe, dann kam die vordere und bald fährt das Auto routinemäßig ohne Mensch am Steuer. Das sind Erkenntnisse der Technik, die erst einmal durch wildes Sammeln von Daten entstanden sind, aber sehr viel Zeit bei der Aufbereitung der Daten benötigen, um diese nutzbar zu machen.

 

Gibt es eine Quelle, bei der auch für Ihre Arbeit das Sammeln von Daten Sinn macht?

Pigeot: Nützlich wären Daten, die Personen über sich selbst sammeln, also etwa von Wearables. Wir haben in der Forschung nämlich das Problem, dass Probanden ihr Verhalten bisweilen ändern, wenn sie Teil einer Studie sind: Dass sie sich beispielsweise nur deswegen mehr bewegen, weil sie wissen, da schaut einer drauf. Wenn ein Mensch sich selbst überwacht, wäre er ehrlicher. Solche Daten ließen sich verwerten, wenn sie eine Qualitätssicherung erfolgreich durchlaufen haben; nicht alle Apps zum Beispiel sind qualitätsgesichert…

 

…mitunter liefern drei Bewegungs-Apps am Ende eines Tages drei unterschiedliche Zahlen…

Pigeot: Besonders problematisch finde ich, wenn Apps Verhaltenstipps geben – denn viele sind nicht qualitätsgesichert.

 

Solche Ratschläge nehmen mit der Zahl der Health-Apps stark zu.

Pigeot: Der Idealfall ist, wenn IT-Unternehmen, welche diese Apps entwickeln, ernsthaft mit der Forschung zusammenarbeiten. Das passiert auch in einigen Fällen. Aber letztlich muss auch der Mensch selbst lernen, mit Informationen umzugehen. Vielleicht muss das Wissen über den Umgang mit Statistiken, aber auch über den Umgang mit der Weitergabe von personenbezogenen Daten stärker in die Schulen getragen werden. Es ist ja interessant, wie wenig wir Verbraucher im Internet über Datenschutz nachdenken, da setzen wir meist ungelesen unsere Häkchen unter die AGBs und geben unsere Daten ab.

 

Die Forschung dagegen ist mit anderen Schwierigkeiten konfrontiert.

Pigeot: Die Forschung unterliegt zu Recht sehr restriktiven datenschutzrechtlichen Bestimmungen. Man hat aber den Eindruck, dass die Angst vor einem Datenmissbrauch in der Forschung viel größer ist als jene vor einem Missbrauch im Netz. Da tut sich ein riesiger Gegensatz auf. Ich kann nicht verstehen, wie sich jemand gegen die Weitergabe von Daten an Forschung sträubt und gleichzeitig sein halbes Leben auf Facebook offenbart.

Ihr Kommentar

Wollen Sie namentlich in der Diskussion genannt werden?

Schliessen Kreuz Created with Sketch.

Regelmäßige Neuigkeiten aus dem Land der Gesundheit