DATA INTELLIGENCE HUB - Für Geschäftskunden

ERLEBEN, WAS VERBINDET.

Willkommen im Zeitalter der “Datenräume”: Speicherung wird sekundär – IT Director Interview mit Prof. Chris S. Langdon

IT Director

 

Aufregung in der Wirtschaft: Die Bundeskanzlerin spricht von Datenräumen. Statt Abwrackprämie als Hilfe für die Automobilindustrie gibt es jetzt einen Datenraum (Delhaes 2020, Benrath & Löhr 2021). Was ist denn ein Datenraum? Jeder von uns kennt Datenspeicher. Alte Hasen kennen noch Lochstreifen und Magnetbänder. Dann Festplatten und USB-Sticks. In Firmen gibt es Datenbanken und Data WarehousesUnd seit dem bekannten Aufsatz der Experten für das Internet der Dinge (IoT), Porter & Heppelmann, im Harvard Business Review gibt es den Trend zu Data Lakes (2015). 

Abbildung 1: Die Daten-Informations-Erkenntnis Wertekette

Daten zu Informationen und zu Erkenntnissen

Doch schon heute kann ein Data Scientist auf der Suche nach relevanten Daten schnell in diesen Data Lakes ertrinken. Abbildung 1 unterstreicht wie wichtig es ist, die richtigen Daten zu finden; nicht irgendwelche, sondern diejenigen Daten, die genau die Informationen enthalten (Informations-Erz), um verlässlich Erkenntnisse für Geschäftsentscheidungen abzuleiten. So verschlingt die Suche nach Daten und deren Aufbereitung heute oft mehr als 80% des Zeitbudgets eines Data Analytics Projekts (hier lesen sie mehr zu unserer empirischen Untersuchung von „Data is broken: The data productivity crisis“, Link). Und die grosse Datenlawine steht uns erst noch bevor (siehe Abbildung 2). Die Zeit scheint also reif für neue Ansätze der Datenhaltung wie Datenräume.

Abbildung 2: Exponentiell beschleunigtes Datenwachstum

Was ist ein Datenraum?

Die Datenstrategie der Bundesregierung beschreibt einen Datenraum als “einen gemeinsamen, vertrauenswürdigen Raum für Transaktionen mit Daten. Ein Datenraum basiert beispielsweise auf gemeinsamen Standards (oder Werten, Technologien, Schnittstellen), die Transaktionen mit Daten erlauben oder befördern“ (Deutsche Bundesregierung 2021; siehe auch Abbildung 3 für weitere Definitionen). Im Kern drehen Datenräume die traditionelle Logik der Datenhaltung um. Wie im Positionspapier des OpenDEI Projekt beschrieben, ist „Ein Datenraum […] definiert als eine dezentrale Infrastruktur für die vertrauenswürdige gemeinsame Nutzung und den Austausch von Daten in Datenökosystemen, die auf gemeinsam vereinbarten Prinzipien basieren“(OpenDEI project: Design principles for Data Spaces S. 23). Statt alle Daten zentral zu lagern, können Daten verteilt abgelegt werden ja sogar dort verbleiben, wo sie entstehen. Denn nicht die zentrale Lagerung ist entscheidend, sondern ob eine Anwendung, wie z.B. eine Korrelationsanalyse oder ein Deep Learning Algorithmus, die richtigen Daten in ausreichender Menge bekommt. Also ein Just-in-Time Datenteilen statt zentraler Lagerhaltung. Das Problem war aber bisher, dass sich die Beteiligten einer Datentransaktion oft nicht trauen, Daten tatsächlich zu teilen. Aus unterschiedlichen Gründen, wie z.B. aus Sorge um Wettbewerbsvorteile und Datenschutz. Kurz, oft fehlt der Schutz der Datensouveränität, dem Recht, die Kontrolle über seine Daten zu behalten (siehe Abbildung 4). Sobald eine Datei verschickt wird, kann alles mit ihr passieren. Hier kann neue Technologie, wie z.B. der International Data Spaces (IDS) Standard helfen, sodass zwei Parteien, die sich zwar nicht trauen, weil sie vielleicht Wettbewerber sind, aber einer Datentransaktion vertrauen können, von der sowohl ein Endkunde wie die beiden Parteien profitieren.

Abbildung 3: Was ist ein Datenraum?

Von Data Lakes zu Datenräumen mit dezentraler und föderierter Datenhaltung

“Freie Bahn für Datenaustausch” titelt das Fachmagazin „IT Director“ im August 2020 (Link). Aber wie kann das gelingen, wo doch in der Praxis Unklarheiten in der Verarbeitung von Daten der Alltag sind. In Interviews mit Data Science & Analytics Experten hat Daniela Hoffmann von „IT Director“ klare Lösungsansätze für Herausforderungen identifiziert. „Die Aufmerksamkeit ist derzeit eindeutig auf das Thema Daten geschwenkt. Auch die Politik stellt die Weichen und nimmt viel Geld für das Thema Daten in die Hand, zum Beispiel für GAIA-X“, meint Christoph Schlueter Langdon, verantwortlich für Mobility Data Spaces beim Telekom Data Intelligence Hub und Professor für Data Science & Analytics an der Peter Drucker School of Management der Claremont Graduate University. Die Menschen dächten über die Qualität und Korrektheit von Daten nach, weil sie nun selbst davon betroffen sind, siehe R-Wert, Verdopplungszeit und Fälle pro 100.000 Einwohner. Als Folge der Corona-Krise sei nicht nur das Interesse an validen Daten gestiegen, sondern es gebe ein Umdenken von zentraler Datenhaltung und Data Lakes hin zu dezentralen Strukturen: Bestes Beispiel dafür ist die Corona-App, die nach einigem Gerangel um die Architektur aus Datenschutzgründen schließlich vollkommen dezentral ausgelegt wurde (mehr dazu hier: „Corona warning app: Answers to frequently asked questions,“ Link).

Abbildung 4: Was ist Datensouveränität?

Vorteil Datenraum: Datenprodukte wie im Supermarkt

Für die Entscheidungsunterstützung bei Business Intelligence (BI) müssten eigentlich so viele der richtigen Daten wie möglich zusammengeführt werden, so Schlueter Langdon: „Heute gilt allerdings für die Datenhaltung und Analyse immer noch häufig die Analogie: Jeder schlachtet seine eigene Kuh und hat Gemüse im Garten, statt im Supermarkt einzukaufen“. Gefragt sind also Daten-Supermärkte, in denen Datenprodukte im Regal stehen (siehe Abbildung 5; zu Datenprodukten, siehe „Data is a Product“, Crosby & Schlueter Langdon 2019, Link), und Daten-Fabriken, die Rohdaten in solche Datenprodukte umwandeln (mehr dazu in unserem Artikel „Datenfabriken für Datenprodukte“, Link; Schlueter Langdon & Sikora 2020). Ansätze wie der Telekom Data Intelligence Hub stellen entsprechende Funktionalität auf einer Cloud-basierten Plattform mit Open Source Werkzeugen bereit. Zugleich können Unternehmen dort auch zusätzliche Kontext-Daten wie Wetter- oder Standortdaten beziehen, um eigene Daten zu komplementieren.

Abbildung 5: Datenräume für ein reichhaltiges Datenangebot wie im Supermarkt

Vorteil Datenraum: Die richtigen Daten in ausreichender Menge

KI-Disziplinen wie Deep Learning, zur Text-, Bild- und Spracherkennung, liefern immer öfter wichtige Ergebnisse, hängen aber komplett von der Datenmenge und -qualität ab, so der Experte (mehr dazu in unserem Artikel „Daten: Quantität oder Qualität?“, Link). Überall dort, wo bessere Analyseergebnisse erst durch große Datenmengen (Big Data) entstehen, ist zugleich zu beobachten, dass sich Unternehmen schwertun, an ausreichende Datenvolumen heranzukommen. „Dazu tragen zwei Faktoren bei: Einerseits ist es ein Eigeninteresse, man denkt, die Daten für sich zu behalten, bringe einen Wettbewerbsvorteil. Andererseits müssen DSGVO-Auflagen (Datenschutzgrundverordnung) erfüllt werden, was vielen Unternehmen noch schwerfällt“, so Schlueter Langdon. „Konzepte und Standards wie Industrial Data Spaces (IDS) helfen, diese Daten zu generieren: Einfach, weil sie die Hürde reduzieren, Daten zu teilen die man bisher wegen eines Mangels an Vertrauen nicht weitergeben wollte“, meint Chris Schlueter Langdon. Und Timing ist alles: Die Entwicklung dieser neuen Technologie fällt mit der vorgeschlagenen Regulierung für Data Sharing und Governance zusammen, dem vorgeschlagenen Data Governance Act (DGA) der Europäischen Union (EU DGA 2020).

Dieser Artikel basiert auf einem längeren Beitrag „Freie Bahn für Datenaustausch” in IT Director, August 2020 (Link)

 

Erfahren Sie mehr zu:

Quellen

Benrath, B., and J. Löhr. GAIA-X-Initiative: Die Staats-Cloud kommt. Frankfurter Allgemeine Zeitung (2021-02-13), p. 2

Bundesregierung der Bundesrepublik Deutschland. 2021. Datenstrategie der Bundesregierung – Eine Innovationsstrategie für gesellschaftlichen Fortschritt und nachhaltiges Wachstum. Kabinettsfassung 2021-01-27, Bundeskanzleramt, Berlin, www.bundesregierung.de/publikationen

Crosby, L., and C. Schlueter Langdon. 2019. Data is a Product. American Marketing Association Marketing News (April), link

Delhaes, D. 2020. Merkel drängt Autokonzerne: BMW, Daimler und VW sollen Datenschatz teilen. Handelsblatt (2020-10-28), link

Drucker, P. 1992. Be Data – Know What to Know. The Wall Street Journal (December 3)

Drucker, P. 1967. The Manager and the Moron. McKinsey Quarterly (December), link

European Data Governance Act (DGA). 2020. Regulation on European data governance (Data Governance Act). Proposal (November 20), link

Fraunhofer, International Data Spaces, Retrieved from https://www.dataspaces.fraunhofer.de/de/InternationalDataSpaces.html, Accessed 2021-01-26

Handelsblatt. 2019. Grenzen des Speichers. Grafik des Tages (2019-05-14): 24-25

IDC report, Worldwide Global DataSphere Forecast, 2020–2024: The COVID-19 Data Bump and the Future of Data Growth (Doc #US44797920)

Otto, B., A. Rubina, A. Eitel et al. 2021. GAIA-X and IDS – Position Paper. International Data Spaces Association, Version 1.0 (January), Dortmund, Germany, link

Porter, M. E., and J. E. Heppelmann. 2015. How Smart, Connected Products Are Transforming Companies. Harvard Business Review (October), link

Schlueter Langdon, C., and R. Sikora. 2020. Creating a Data Factory for Data Products. In: Lang, K. R., J. J. Xu et al. (eds). Smart Business: Technology and Data Enabled Innovative Business Models and Practices. Springer Nature, Switzerland

International Data Spaces Association,OpenDEI project, 2021, position paper. Design principles for Data Spaces. link