Unternehmen sollten nicht mit Data Science beginnen: Hannah Ziemons

Spiel und Tech Erfahrungen mit Greta Hoffmann

3 min readJan 8, 2023

Hannah Ziemons im Gespräch zum Thema Data Science im Modern Data Stack

Hannah war Data Scientist bei taod und hat bereits ganz verschiedene Data Science Projekte begleitet. So verschieden wie die Projekte war auch der jeweils vorhandene Data Stack, auf den sie als Scientist in den wenigsten Fällen Einfluss hatte. Deshalb weiß sie um die Möglichkeiten innerhalb eines Modern Data Stacks und dessen Bedeutung für Unternehmen.

taod: Hannah, was macht einen idealen Modern Data Stack für dich aus?

Hannah Ziemons: Das sind vor allem drei wichtige Aspekte. Zunächst einmal ist ein hoher Automatisierungsgrad essenziell für einen guten Modern Data Stack. Es macht keinen Sinn, etwas neu zu programmieren, das weniger fehleranfällig bereits in einer Software-Lösung bereitgestellt werden kann. Außerdem ist kollaborative Funktionalität wichtig. Dank der Cloud bieten die allermeisten Tools Sharing-Funktionalitäten und kollaborative Features an, die eine Zusammenarbeit des Teams technologisch unterstützen.

Hast Du ein Beispiel für solch ein kollaboratives Feature?

Da fällt mir die automatische Dokumentations-Funktion ein, die das ETL Tool dbt bietet. Hier wird der Aufwand der wenig beliebten und doch so wichtigen Aufgabe der Dokumentation deutlich verringert. Gleichzeitig wird die Zusammenarbeit und die Einigung auf ein gemeinsames Wissen und Vorgehen verbessert.

Das fördert gleichzeitig die Datenkultur innerhalb des Teams. Zurück zum optimalen Modern Data Stack: Wie lautet dein dritter Aspekt?

Flexibilität. Jedes Tool schafft zwar eine gewisse Abhängigkeit, aber sie sollte so gering wie möglich gehalten werden. Eine technische Lösung muss nicht zehn Probleme auf einmal erledigen, dafür aber das Problem, auf das sie spezialisiert ist. Und zwar so, dass sie auch flexibel mit anderen Tools kombiniert und in Data Science Prozesse integriert werden können.

Was bedeutet es für Data Science Projekte, wenn eben solche Tools fehlen oder mangelhaft integriert sind?

Data Science Initiativen scheitern meist am Roll-out, nicht an guten Initiativen. Natürlich sollte der fehlende Modern Data Stack kein Grund sein, einen relevanten Use Case nicht umzusetzen. Experimentieren funktioniert im ersten Schritt auch mit einer Sammlung von CSV-Dateien. Daraus entstehen jedoch zwei klassische Herausforderungen für Data Science, bei denen der Modern Data Stack eine kritische Rolle spielt.

Welche Herausforderungen sind das?

Das ist erstens vorschnelles Handeln. Grundlegende Annahmen werden oft nicht überprüft, obwohl sie entscheidend für den späteren Use Case sind. Dazu werden aber keine Data Science Methoden benötigt, sondern solide Analytics-Grundlagen. Ist diese Hürde genommen und die weitere Investition in den Use Case gerechtfertigt, werden zweitens meist schnell die ersten Modelle gebaut. Durch die große Bandbreite von Data Science läuft die Optimierung und Nutzung dieser Modelle aber schnell ins Uferlose.

Wo liegt das Problem?

Das taucht meist auf, wenn es um die Operationalisierung der Modelle geht. Denn nun spielen plötzlich ganz andere Metriken wie Trainings- und Vorhersagedauer, Stabilitäts-Kennzahlen und operationale Werte wie Memory Usage oder Latency eine Rolle. Dabei hilft aber nicht das perfekt ausgefeilte Modell, sondern eine durchdachte, flexible und skalierbare Dateninfrastruktur — genau das, was der Modern Data Stack bietet.

Der Modern Data Stack ist also die Grundlage für wertschöpfende Data Science. Was empfiehlst du Unternehmen, die ihre Data Science Initiativen auf- oder ausbauen wollen?

Unternehmen sollten nicht mit Data Science beginnen. Bevor ich die Kennzahlen, die mein Geschäft bestimmen, nicht analytisch auswerten kann, ergeben AI und Machine Learning selten Sinn. Einige Use Cases sind aber vielleicht schon absehbar, zum Beispiel automatisiertes Forecasting oder die Identifikation von Betrugsfällen. Sie sollten natürlich parallel festgehalten werden. Wenn nun der Aufbau des Modern Data Stacks Schritt für Schritt vorangetrieben wird, hilft es immer zwischendurch zu fragen: Gehen wir mit dieser Daten-Infrastruktur in die richtige Richtung? Wären wir bei Umsetzung dieser Lösungen in der Lage, unsere Data Science Use Cases zu starten und zu skalieren? Eine „Data Science Checklist“ ist dabei immer nützlich, um den Fokus nicht aus den Augen zu verlieren.

Source: taod . de