Data-Driven Organization – Sprichst Du schon API, ETL & Co.?
Im dritten Modul des CAS Data-Driven Organization wurde es technisch. Zu meiner grossen Erleichterung: es gibt für diese Bereiche Spezialisten. Ein paar Grundlagen helfen jedoch, um beim gemeinsamen Aufbau einer datengetriebenen Organisation die Kommunikation und damit das Ergebnis erfolgreich zu gestalten.
Benjamin Adriaensen bringt die Essenz dieses Moduls auf den Punkt:
Ohne IT gibt es keine Daten, ohne Business gibt es kein Wissen!
ETL kann nicht ohne eine kontinuierliche Zusammenarbeit zwischen IT und Business durchgeführt werden. Das spiegelt sich in der Gestaltung der Datenprozesse, der Architektur, der Strategie, den Plattformen, die miteinander verbunden sind, den Datensicherheitsmassnahmen, den politischen Prozessen – mit anderen Worten – überall wider.
Ich positioniere mich in dieser Aussage eindeutig unter der Kategorie «Business», werde in diesem Blogbeitrag aber doch in die technische Begrifflichkeit eintauchen und auf weiterführende Quellen verweisen.
Bevor es losgeht aber ein paar Insights, was mich am Thema Data-Driven anspricht.
Weshalb ich mich für das Thema Daten interessiere
Mich faszinieren die Möglichkeiten, Daten in aussagekräftige Analysen und Visualisierungen zu verwandeln. Dies dient dem Aufbau von Wissen und unterstützt das Treffen von besseren Entscheidungen. Ausserdem lassen sich mit Analysen Annahmen prüfen und neue Muster erkennen. Inspiration findet sich überall, hier einige meiner Quellen:
Das Buch «Factfulness» – Wie wir lernen, die Welt so zu sehen, wie sie wirklich ist – von Hans Rosling:
Ziel ist es, mit Daten von internationalen Institutionen (UNO, World Bank etc.) einige falsche Annahmen über die Welt auszuräumen. Wem Bücher lesen zu anstrengend ist, kann sich auf der Homepage einigen Quizfragen stellen und sich die spannenden Visualisierungen ansehen. Zudem tut es dem Gemüt gut: die Welt ist nicht in einem so schlechten Zustand, wie man dies oft nach dem Nachrichtenkonsum vermuten würde:
Auf Linkedin folge ich Steve Nouri, welcher immer wieder anschauliche Visualisierungen postet. Ein Blick in sein Profil & seine Aktivitäten lohnt sich.
Und beim Kiosk konnte ich der neusten Ausgabe von GEO kompakt gerade nicht widerstehen: «Die Geburt der Maschinen», Künstliche Intelligenz, Roboter und Co.
Jetzt aber los
Bevor all die Analysen möglich werden, müssen die Daten irgendwo herkommen. Und in eine Form gebracht werden, damit die Analysen möglich sind. Deshalb nun in den simplen Worten einer Ökonomin, was ich vom letzten Modul verstanden habe. Und ganz nach dem Disclaimer von Schriftsteller:innen: ein grosses Dankeschön an die Vortragenden für das Teilen ihres Wissens. Allfällige Fehler im Text sind ganz allein die meinen!
ETL – Extract, Transform, Load
Es geht nichts über hands-on. Deshalb sind wir nicht mit einer Powerpoint-Schlacht und viel Theorie ins Modul gestartet, sondern haben eine Übung in Power BI gemacht.
- An vorbereiteten Daten aus Linkedin (Extract, danke Ben fürs Vorbereiten)
- haben wir erste Bereinigungen vorgenommen und Dimensionen gebildet (Transform)
- und das Ergebnis für die Analyse bereitgestellt (Load)
- Danach haben wir einige Visualisierungen vorgenommen
Was simpel tönt, ist immer gespickt von Komplexität.
Extract
- Quelldaten kommen aus verschieden Systemen und mit unterschiedlichen Datenformaten
- Für jede Datenquelle muss die passende Technik angewendet werden
- Daten sind unter Umständen in zahlreichen Excel-Tabellen verstreut
- Und und und…
Soll die Datenbasis erweitert werden (nicht nur was im Unternehmen vorhanden ist, sondern auch was die Welt so bietet…) kommt API ins Spiel. API erlaubt das Kommunizieren von verschiedenen Software-Applikationen und kann daher für den Zugriff auf Daten genutzt werden. Wikipedia weiss natürlich mehr:
Wikipedia: API Application Programming Interface – Programmierschnittstelle
Auch diesen Artikel fand ich enorm hilfreich, um API besser zu verstehen: ionos.de: Was ist eine API?
Dann gibt es auch noch das Suchen von Daten auf verschiedenen Webseiten, da kommt Scraping ins Spiel. Auch hier ein hilfreicher Artikel dazu: ionos.de: Was ist web scraping?
Dies ist keine abschliessende Liste. Soll aber einen kleinen Einblick geben, dass hinter dem unscheinbar wirkenden E im Modell einiges steckt.
Bereit für den nächsten Schritt?
Wobei nächster Schritt: das Ganze läuft nicht einfach gradlinig, sondern kann sich in iterativen Schlaufen entwickeln…
Transform
In dieser Phase geht es darum, Rohdaten nutzbar zu machen:
- Korrigieren von Fehlern
- Beseitigen von Duplikaten
- Auflösung von Konflikten
- Harmonisieren von Begriffen
- Sortieren
- Zusammenfügen
- …
Auch Dimensionen bilden gehört dazu, wobei nun Datenmodelle wie Sterne und Schneeflocken ins Spiel kommen. Für die Erklärung lasse ich mir gerne von Wikipedia unter die Arme greifen.
Load
Haben wir es bis hierher geschafft, folgt nun das Laden, damit mit diesen Daten in einem entsprechenden Tool Auswertungen gemacht werden können.
Tönt vielleicht in meiner Beschreibung wieder banal, ist aber bei grossen Datenmengen mit verschiedenen Herausforderungen verbunden:
- Initial load: grosse Volumen und lange Zeiten
- Incremental load: Delta, Updates, Zeitpunkt
In unserem Unterricht haben wir Power BI verwendet. Und bei der ersten Verwendung – jedenfalls bei mir – ist das alles nicht so intuitiv. Es lassen sich alle möglichen Analysen und Visualisierungen erstellen.
Aber: Was will ich aussagen? Welche Fragen will ich klären? Was ist das richtige Format, um die Ergebnisse darzustellen?
Genau diese Punkte sind für mich mit meinem beruflichen Hintergrund die spannenden. In einem kurzen Modul lässt sich dem nicht auf den Grund gehen. Für mich geht daher die Reise eigentlich erst los.
Hier noch ein Link zu einem Artikel, in dem die Vielfalt analytischer Tools dargestellt ist. Ein Entscheid ist auch hier zu treffen: heyde.ch: BI Tools im Vergleich
So. Bis hier hätten wir es geschafft. Und zugegebenermassen hat mich dieses Modul echt geschlaucht. Aber wie heisst es so schön: an Herausforderungen wächst man.
Wie geht es weiter?
Ich freue mich jedenfalls auf den nächsten Teil des CAS. Als kleiner Ausblick: es geht um Statistik, die Basis von maschinellem Lernen und künstlicher Intelligenz. Stay tuned, more to come.
Wer sich für Datenspuren und Analysemöglichkeiten interessiert, hier ein Artikel dazu. Schon einige Jahre alt, aber immer noch aktuell zur Frage: «Wie transparent bin ich».
Süddeutsche Wissen: Was die Kreditkarte verrät
Habt Ihr die Beiträge über die ersten beiden Module verpasst? Voilà:
Besten Dank an Andreas Spichiger und Benjamin Adriaensen für das Teilen ihres Wissens im CAS Data-Driven Organization.
Wie steht Ihr zum Thema Data-Driven Organization? Habt Ihr vertiefende Frage & Input? Ich freue mich über Feedback und Kommentare.
Es darf auch gerne eine Empfehlung für weitere spannende Themen für meinen Blog sein.
Eure Gaby
#ModernCFO
[…] Die Technologie bietet spannende Tools und Visualisierungen, um die unterschiedlichsten Daten im Unternehmen sichtbar zu machen und für Entscheidungen zu nutzen. Es ist jedoch keine einfache Aufgabe, die richtigen Fragen zu stellen und die passenden Daten auszuwählen. Zudem ist das Erstellen der Datenmodellierung anspruchsvoll. Darüber habe ich bereits in einem Blogbeitrag berichtet: Data-Driven Organization: Sprichst Du schon API, ETL & Co.? […]