DATA INTELLIGENCE HUB - Für Geschäftskunden

ERLEBEN, WAS VERBINDET.

Erstellt Datenprodukte in Datenfabriken

Wenn „Zeit ist Geld“ (Franklin 1749) heute noch akut ist, dann ist Datenanalyse eine Katastrophe. Mehr als 80% des Zeitbudgets eines Datenanalyseprojekts wird für die Verarbeitung und Optimierung von Daten aufgewendet wird – nicht etwa für Ergebnisse (siehe „Data is Broken; Die Datenproduktivitätskrise„). Wie kann man das Problem lösen? Führende Pioniere der Informations- und Kommunikationstechnologie wie IBM und die Deutsche Telekom (siehe „T-System ist die Nummer 1„) bieten bereits Tools zur Datenvorbereitung an, wie den Telekom Data Intelligence Hub und IBMs DataOps. Diese Bemühungen korrespondieren mit vielen Fortschritten aus der Wissenschaft. Ein Beispiel ist die neue Forschung zu Datenfabriken, die durch akademische Veröffentlichungen und Open Discovery im Dialog mit Datenexperten, wie zum Beispiel im Rahmen von WEB@ICIS 2019 und Branchenveranstaltungen wie Data Natives 2019, überprüft wurden. Der folgende Artikel basiert auf Auszügen der Arbeit von Christoph Schlueter Langdon & Sikora, 2019. Abbildung 1 zeigt eine Konzeptualisierung einer Datenfabrik.

Abbildung 1: Datenfabriken in der Theorie und Praxis auf Wissenschafts- und Industrie Events.

Daten Produktisierung in „Datenfabriken“

2006 sprach Clive Humby, Mathematiker und Architekt des britischen Einzelhandelsunternehmens Tesco’s Club and Loyalty Card, auf dem Marketinggipfel der Association of National Advertisers an der Kellogg School of Management in Chicago von „Daten als neues Öl“ (ANA 2006). Der eine Teil seiner Ölanalogie ist, dass Daten so wertvoll sein können wie Öl, hat sich durchgesetzt  – obwohl Daten nicht einmal wie Öl für den Verbrauch genutzt werden. Der andere Teil über den Raffinationsaufwand hat sich jedoch noch nicht durchgesetzt. Humbys Analogie legt nahe, dass, um Rohdaten zu verfeinern und sie in „KI-fähige“ Datenprodukte, die für Analyseanwendungen benötigt werden, aufzubereiten, möglicherweise umfangreiche Raffinationen in industriellem Maßstab mit großen Plattformen erforderlich sind, die mit massiven Raffinerien für Öl vergleichbar sind. Die Industrialisierung der IT ist sicherlich kein neues Phänomen (Walter et al. 2007). Und für die einfache Speicherung und Verarbeitung von Daten scheint diese Raffinerieanalogie sehr gut mit Beobachtungen auf dem Gebiet zu korrespondieren, insbesondere mit dem explosiven Wachstum des Cloud-Geschäfts. Der weltweite Umsatz mit öffentlichen Cloud-Diensten, der mit der Elastic Compute Cloud von Amazon im Jahr 2006 eingeführt wurde, wird für 2019 auf über 200 Milliarden US-Dollar geschätzt (Gartner 2018b). Darüber hinaus ist das Geschäft bereits in jungen Jahren hoch konzentriert, da nur drei Hyperskalierer den größten Teil des Geschäfts ausmachen: Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP). Ende 2018 machten diese Top-3-Anbieter 60% des Geschäfts aus, die Top-10-Anbieter fast 75% (Miller 2019).

Abbildung 2: Datenfabriken, um Rohdaten in Datenprodukte umzuwandeln

Ziel: Datenfabrik-Framework 

Die Konzeption unseres Datenfabrik-Frameworks baut auf einer etablierten Grundlage auf. Es hat sich in einer mehrstufigen Untersuchung von (a) einer eingehenden Fallstudienanalyse in der Literatur und (b) systematischen Literaturrecherchen (SLRs) zu (c) unseren eigenen Beobachtungen zum Aufbau einer Datenfabrik in der Praxis entwickelt. Abbildung 2 fasst die Entwicklungen in der Literatur als Grundlage unserer Verfeinerungen zusammen.

Abbildung 3: Evolution der Framework-Grundlage in der Literatur (Schlueter Langdon & Sikora, 2019)

Pääkkönen & Pakkala präsentieren eine erste Analyse interner „Datenfabriken“ anhand eingehender Fallstudien großer Datenpioniere (2015). Die Autoren sezieren Datenvorgänge bei Pionieren wie Facebook und Netflix und stellen fest, dass die Datenaufbereitung in diesen Unternehmen ein „Prozess“ als „eine Reihe von Aktionen oder Schritten“ (Webster) ist, analog zu einer „Fabrik“ als „eine Reihe von […] Einrichtungen zur […] Herstellung von Waren […] durch Maschinen“ (Webster). Diese schrittweise Zerlegung entspricht der Entwicklung der Fähigkeiten von Informationssystemen in Richtung Modularisierung und Flexibilität, wie sie mit dem Aufkommen von Webdiensten, beispielsweise mit dem .NET-Framework von Microsoft, zu beobachten ist (Schlueter Langdon 2006, 2003b). Im Einzelnen zeigen Pääkkönen & Pakkala drei wichtige und übliche Schritte der Datenverarbeitung auf – aufgrund unseres Fokus auf die Datenverarbeitung schließen wir ausdrücklich alle Schritte der Analyse, Analytik und Visualisierung aus: (i) Datenextraktion, Laden und Vorverarbeitung; (ii) Datenverarbeitung und (iii) Datentransformation. Diese eingehende, fallstudienbasierte Bewertung von Big-Data-Pionieren wird durch umfangreiche SLRs bestätigt: Die erste Studie umfasst 227 Artikel aus von Experten begutachteten Zeitschriften, die von 1996 bis 2015 aus der Scopus-Datenbank entnommen wurden (Sivarajah et al. 2017). Sie bestätigen drei Schritte des Datenvorbereitungsprozesses (ebenfalls ohne Datenanalyse-, Analytik- und Visualisierungsschritte): Datenerfassung (Erfassung und Speicherung), Verarbeitung (Bereinigung) und Transformation (Aggregation und Integration; S. 273). Eine zweite aktuelle Studie untersuchte 49 Artikel aus drei verschiedenen Bereichen der Literatur (Stieglitz et al. 2018): Informatik (ACM und IEEE), Informationssysteme (AIS) und Sozialwissenschaften (ScienceDirect). Diese zweite SLR liefert die Hinzufügung von Datenqualität als weiteren eindeutigen und gemeinsamen Schritt im Datenverarbeitungsprozess (Stieglitz et al. 2018, Abbildung 3, S. 165).

Diese vier Schritte, wie in Abbildung 2 dargestellt, bilden die Grundlage für unsere Beobachtungen zum Aufbau einer realen Datenfabrik. Diese Fabrik wird von der Deutschen Telekom gebaut und ist Teil des Telekom Data Intelligence Hub (DIH, Deutsche Telekom 2018). Die Deutsche Telekom ist mit rund 178 Millionen Mobilfunkkunden und knapp 50 Millionen Festnetzanschlüssen eines der weltweit führenden integrierten Telekommunikationsunternehmen. Sie ist in mehr als 50 Ländern tätig und erzielte im Geschäftsjahr 2018 einen Umsatz von 76 Milliarden Euro (Deutsche Telekom 2019). Der DIH wurde Ende 2018 in Deutschland unter folgender Adresse als Produkt mit minimaler Lebensfähigkeit eingeführt: https://dih.telekom.net/en/. Ausgehend von dieser praktischen Erfahrung schlagen wir eine etwas detailliertere Zerlegung der Datenverarbeitungsaktivitäten vor, um Probleme, die sich in der Praxis als kritisch erwiesen haben und die zusätzlichen Schritte in der Datenverarbeitung erfordern: Datenschutz und Datensicherheit. Beide Themen erschienen bereits in der SLR von Sivarajah et al. aber nur als „Managementherausforderung“, nicht explizit als Datenverfeinerungsschritt (S. 292). Seit 2018 schreibt die Datenschutzgrundverordnung (DSGVO) jedoch den Datenschutz in der gesamten Europäischen Union vor, was zusätzliche Schritte zur Datenverarbeitung wie Einwilligungsmanagement, Anonymisierung und Löschung von Benutzerdaten erforderlich macht (Europäische Kommission 2018). In ähnlicher Weise hat sich die Frage der Datensouveränität vom Hygienefaktor zum Schlüsselelement der Geschäftsstrategie eines Unternehmens entwickelt (z. B. Otto 2011) – sie spielt sogar eine Rolle in der Industriepolitik der Nationen: „Die Frage der Datensouveränität ist der Schlüssel für unsere Wettbewerbsfähigkeit. „, laut Deutschlands Bundeswirtschaftsminister (Sorge 2019). Und Europa ist nicht allein. 2018 erließ Kalifornien als erster US-Bundesstaat ein umfassendes Verbraucherschutzgesetz, als es das kalifornische Verbraucherschutzgesetz von 2018 (CCPA) formulierte, das 2020 in Kraft tritt (Cal. Civ. Code §§ 1798.100-1798.199). Die CCPA gewährt den Einwohnern Kaliforniens nicht nur neue Rechte in Bezug auf ihre persönlichen Daten, wichtiger ist, dass Unternehmen, die in Kalifornien geschäftlich tätig sind, Datenschutzpflichten auferlegt werden. Das hat eine besondere Bedeutung daher, dass Kalifornien ein sehr großer Markt ist. Es ist der bevölkerungsreichste Staat der USA und würde gemessen am BIP als fünftgrößte Volkswirtschaft der Welt vor Großbritannien, Frankreich und Italien rangieren (Link )

Rechtliche Fragen sind aus Sicht der reinen Informatik und des Software-Engineerings möglicherweise nicht so wichtig. Für Informationssysteme spielen sie sicherlich eine Rolle, denn jedes Informationssystem und seine Architektur müssten den geschäftlichen Anforderungen entsprechen (Schlueter Langdon 2003a). Daher schlagen wir vor, den Datenverarbeitungsprozess zu Beginn durch das Datenrechtsmanagement zu stützen, um sicherzustellen, dass eine Verarbeitung in erster Linie den gesetzlichen Anforderungen entspricht, und am Ende durch die Datenverwaltung, um die Datensouveränität zu gewährleisten. Abbildung 4 zeigt das erweiterte Datenfabrik-Framework.

Abbildung 4: Erweitertes Datenfabrik-Framework (Schlueter Langdon & Sikora, 2019)

Auf den Punkt gebracht heißt dies, dass Rohdatenrechte überprüft werden müssen, bevor Daten erfasst oder gesammelt werden können (Rechte, Lizenzierung, Zustimmung des Benutzers). Dann müssen die Daten ordnungsgemäß gekennzeichnet oder etikettiert werden, damit sie über einen Katalog von Kategorien und Suchmaschinen auffindbar sind (Klassifizierung). Darüber hinaus muss eine Bewertung vorgenommen werden, um einen Hinweis auf die Qualität zu geben, da eine nachfolgende Analyse ohne sie sinnlos ist – „Müll rein, Müll raus“ (GIGO, Quality Scoring). Schließlich sind Governance-Mechanismen erforderlich, um sicherzustellen, dass Daten ausgetauscht werden können, während die Datensouveränität für jeden Datenanbieter gewahrt bleibt. Beispielsweise war die Telekom Data Intelligence Hub Anfang 2019 die erste Plattform, die Data Governance Controls auf der Grundlage einer von einem Konsortium von Fraunhofer-Instituten entwickelten Architektur anbot (Fraunhofer 2019).

Kommerzielle Datenfabriken

Weitere Datenfabriken entstehen. Microsoft bietet „Azure Data Factory“ als Feature in ihrer Azure-Cloud an, was die Befürchtungen in Europa lindert, dass Hyperskalierer bereits ihre Dominanz über die Datenspeicherung hinaus ausbauen (Clemons et al. 2019). In der Azure Data Factory können Benutzer „datengesteuerte Workflows (Pipelines genannt) erstellen und planen, die Daten aus unterschiedlichen Quellen aufnehmen und nach Bedarf an einen zentralen Speicherort für die spätere Verarbeitung verschieben“ (Microsoft 2018). . Ein schneller Vergleich dieser Beschreibung mit Abbildung 4 zeigt, dass sie sich bisher enger auf ein vorgeschaltetes Modul konzentriert, insbesondere auf die Aufnahme. Eine weitere „Data Factory“ von Datahub bietet offene Toolkits für die Datenbereinigung, -änderung und -validierung (Datahub 2019), die sich – gemäß Abbildung 4 – stärker auf die Datenklassifizierung und die Qualitätsverbesserung konzentrieren würden.

Referenzen