Artikel

Data Science ist Teamwork

von Alyson Wilson, Statistikprofessorin und Associate Vice Chancellor for National Security and Special Research Initiatives an der North Carolina State University

Heutzutage wird uns immer wieder vor Augen geführt, wie nützlich Daten für uns in ganz unterschiedlichen Lebenslagen sein können. Schalten wir den Fernseher ein, sehen wir garantiert mindestens einen Werbespot, in dem uns eine revolutionäre Anwendungsmöglichkeit für Daten erklärt wird – etwa zur Transformation unserer Geschäftsabläufe oder zur Bewältigung einer bisher unlösbaren medizinischen Herausforderung. In diesem Kontext sollte man die Arbeit des Data Scientists, oder Datenwissenschaftlers, etwas genauer beleuchten. Vor knapp zehn Jahren galt noch: „Ein Data Scientist ist jemand, der Statistik besser kann als ein Software-Engineer, und der Software-Engineering besser kann als ein Statistiker.“ Im Laufe der Zeit wurde die Definition der Datenwissenschaften jedoch etwas konkreter. Heute bedient man sich dafür des Data-Science-Lebenszyklus: Data Science, auch Datenwissenschaften genannt, befasst sich mit allen Aspekten des Data-Science-Lebenszyklus – von der Datengenerierung, -erfassung und -verarbeitung über die Speicherung und Verwaltung bis hin zur Analyse, Visualisierung und Interpretation. An diesem Lebenszyklus sind viele verschiedene Disziplinen beteiligt – wenn Data Science also auf eine spezifische Frage angewandt werden soll, kommen Experten aus ganz unterschiedlichen Bereichen zusammen.

Als Statistikerin liegt meine Expertise eher im zweiten Teil dieses Data-Science-Lebenszyklus. Gleich nachdem ich damals meinen Uniabschluss in der Tasche hatte, schloss ich mich einem Fünf-Personen-Betrieb in El Paso (Texas), mit dem Namen Cowboy Programming Resources, an. Das Unternehmen spezialisierte sich darauf, die US-Army bei der Evaluierung neuer oder aufgerüsteter Artillerieverteidigungssysteme zu unterstützen. Konkret bestand unsere Aufgabe darin, diese Systeme zu testen, um ihre Nutzung durch Soldaten im Einsatz zu prüfen. Die Fragen, die es hier zu beantworten galt, waren definitiv ganz anderer Art und in gewisser Weise auch komplexer als alles, womit ich mich an der Uni im Rahmen meiner Recherchearbeit zu biomedizinischen Anwendungen beschäftigt hatte.

Wir wollten herausfinden, wie die Luftabwehrartilleriesysteme im Kampfeinsatz standhalten würden – was grundsätzlich sehr schlecht voraussehbar ist. Die Ergebnisse sind nämlich stark abhängig von den Reaktionen der individuellen Soldaten und der Dynamik innerhalb der Truppen. Oft hatte ich daher das Gefühl, dass mir sowohl viel zu viel als auch viel zu wenig Daten zur Verfügung standen. Ein typisches Testereignis dauerte etwa sechs Wochen und umfasste 400 Soldaten. Obwohl wir dafür Zugang zu allen Funkmeldungen des Bataillons hatten, wäre es uns niemals möglich gewesen, jedes realistische Szenario mit jeder möglichen Kombination aus Faktoren und Bedingungen zu testen. Und ich konnte mir zwar jede einzelne übermittelte Nachricht ansehen, doch wir simulierten eben nur ein konkretes Ergebnis, nämlich wie effektiv das Bataillon bestimmte Aktionen ausführte, während es unter Beschuss stand.

Data Science ist Teamwork. Wenn datenrelevante Aspekte wie Volumen, Verarbeitungsgeschwindigkeit, Vielfalt und Vertrauenswürdigkeit immer komplexer werden, können komplizierte Probleme nicht in Isolation gelöst werden.

Da ich im Rahmen dieser Arbeit die Effektivität militärischer Missionen evaluieren konnte, erweiterte sich mein Verständnis von und meine Einstellung gegenüber der Statistik. Bis dato kannte ich Statistik eigentlich nur im experimentellen Kontext: Ich würde eine wissenschaftliche Hypothese aufstellen, die Datenerhebung planen, Daten erfassen, die Belege analysieren und dann meine Schlussfolgerungen ziehen. In diesem militärischen Rahmen blieb das Grundprinzip zwar das gleiche, doch die einzelnen Aspekte des statistischen Prozesses nahmen für mich ein ganz neues Ausmaß an. Ich wollte die Missionsperformance nachvollziehen können, konnte sie jedoch nicht wirklich testen. Ich hatte zwar Daten, doch diese gaben mir nicht immer Aufschluss über das, was mich gerade interessierte. Ich entwickelte ein Interesse an Fragen, für dessen Beantwortung man verschiedene Arten von Informationen zusammenführen musste.

Auf eine gewisse Weise betrieb ich also Data Science schon 20 Jahre lang, ehe der Begriff überhaupt den Mainstream erreichte. Dabei finde ich es nützlich, Daten im Kontext der vier „V“-Kriterien zu betrachten: Volumen, Verarbeitungsgeschwindigkeit, Vielfalt und Vertrauenswürdigkeit. Ich arbeitete an statistischen Methoden zur Bestimmung der Vielfalt (oder wie wir heterogene Informationen zusammenführen können, um bestimmte Probleme zu lösen); und ich beschäftige mich mit dem Volumen (wie man mit zunehmend umfangreicheren Datensätzen arbeitet), mit der Verarbeitungsgeschwindigkeit (wie man Schlussfolgerungen aus Streamingdaten ziehen kann) und mit der Vertrauenswürdigkeit (wie man ungeordnete Daten nutzbar machen kann, die möglicherweise für einen anderen Anwendungsfall erhoben wurden).

Heute arbeite ich oft in interdisziplinären Teams, da wir in diesem Rahmen für die Lösung komplexer Probleme Zugriff auf eine vielfältige Expertise haben. Als Statistikerin hatte ich beispielsweise keine vorherigen Kenntnisse über Militärmissionen und wusste nicht, wie man die Ausrüstungsabnutzung oder Fehlerquoten von Radaren ermitteln konnte. Doch bei der interdisziplinären Teamarbeit arbeitete ich mit Militäroffizieren, Materialwissenschaftlern und Ingenieuren zusammen, sodass wir gemeinsam die Funktionsweise missionskritischer Komponenten evaluieren konnten.

Nachdem ich Cowboy Programming verließ, schloss ich mich dem Los Alamos National Laboratory an, wo ich den Großteil meiner Zeit damit verbrachte, die Zuverlässigkeit der US-amerikanischen Nuklearbestände zu evaluieren. Obwohl die USA seit Mitte der 1990er-Jahre keine Atomwaffentests für komplette Systeme mehr durchführt, stellen die nationalen Labore immer noch jedes Jahr Schätzungen zur Zuverlässigkeit der Bestände bereit. Als die Tests damals gestoppt wurden, reduzierte sich unsere Stichprobengröße zwar gewissermaßen auf Null, doch uns standen immer noch viele nützliche Informationen zur Verfügung, etwa Daten aus vergangenen Tests, Simulationsmodellen, aus Tests von Teilkomponenten, Abnutzungstests sowie Expertenwissen. Auch in diesem Fall wurde ein multidisziplinäres Team gebildet, um auf Grundlage unterschiedlicher Informationsressourcen konkrete Fragen zu beantworten.

An der North Carolina State University bin ich heute als Principal Investigator für das Laboratory for Analytic Sciences (LAS) tätig. Das LAS ist eine missionsorientierte Partnerschaft zwischen der akademischen Welt, Industrie und Regierung, in deren Rahmen Probleme gelöst werden, die von Interesse für die Nachrichtendienste sind. Überspitzt könnte man sagen, dass jedes Unternehmen auf der Welt sich die Frage stellt, wie es seine Daten zu seinem strategischen Vorteil einsetzen kann – und dass die Geheimdienste da keine Ausnahme sind. Das LAS wurde gegründet, da die Nachrichtendienste erkannten, dass eben viele Innovationen im Bereich von Big Data dadurch entstanden, weil Unternehmen sich diese Frage stellen. Hier im LAS gehen wir Partnerschaften ein, um die grundlegende Recherchearbeit aus der akademischen Welt, das praktische Know-how aus der Industrie und die komplexen Problemstellungen der Geheimdienste und nationalen Sicherheit an einen Tisch zu bringen. Hierbei arbeiten wir an vielfältigen Problemen: etwa der Datenauswertung (oder wie man die gewünschten Daten aus Billionen von erfassten Datensätzen findet), der Machine-Learning-Integrität (oder wie man Workflows im großen Maßstab aufrechterhält), und der Zusammenarbeit zwischen Mensch und Maschine (oder wie man Computer eher als Partner statt als Tools einsetzt). SAS ist ein Langzeitpartner des LAS. Aktuell konzentrieren wir uns im Rahmen dieser Partnerschaft auf die Automatisierung der Analyse eines Datenkorpus mit heterogenen Medien – mit dem Ziel, eine flexible Modellierungspipeline zu entwickeln, die leicht auf die Bedürfnisse von Geheimdienstanalysten zugeschnitten werden kann.

Die Probleme, mit denen wir uns hier im LAS beschäftigen, könnten ohne eine multidisziplinäre Zusammenarbeit nicht gelöst werden. Nicht traditionelle Beteiligte helfen uns dabei, die Daten und Informationen, welche für die Lösung dieser Probleme wichtig sind, nutzbar zu machen. So besteht eines unserer LAS-Projekte – der „Social Sifter“ (zu Deutsch etwa Social-Media-Sieb) – beispielsweise in der Identifizierung von Social-Media-Konten, die wichtiger Bestandteil koordinierter Kampagnen zur Verbreitung von Desinformationen sind. Experten in Sprachwissenschaften, Marketing, Psychologie und Statistik halfen bei der Gestaltung der Benutzeroberfläche sowie der Algorithmen, die schnell riesige Volumen an Online-Informationen analysieren können, um Konten dieser Art aufzuspüren.

Data Science ist Teamwork. Wenn datenrelevante Aspekte wie Volumen, Verarbeitungsgeschwindigkeit, Vielfalt und Vertrauenswürdigkeit immer komplexer werden, können komplizierte Probleme nicht in Isolation gelöst werden. Multidisziplinäre Teams sind wichtig, um Daten in Informationen umzuwandeln, und auch wir Statistiker spielen dabei eine wichtige Rolle.