DATA INTELLIGENCE HUB - Für Geschäftskunden

ERLEBEN, WAS VERBINDET.

Datapools für KI – Mehr von den richtigen Daten

Warum Daten wichtig sind 

Die erste Erfolgsregel bei der Datenanalyse und künstlichen Intelligenz (KI) besteht darin, (a) die richtigen Daten und diese (b) in der richtigen Menge zu verwenden, da KI nur dann Erkenntnisse gewinnen kann, wenn die dafür benötigten Informationen auch in den Daten enthalten sind – und je mehr von den Daten mit dem richtigen Informationsgehalt, desto besser. Ist es beispielsweise das Ziel, den Ausfall einer Maschine zu prognostizieren, dann sollten alle Dateneingaben zum Erstellen der Trainingsdaten für den Algorithmus so viele Fehlerereignisse wie möglich enthalten. Ansonsten ist gilt „Müll rein, Müll raus“, „Garbage in, Garbage out“ (GIGO).

Erst das Richtige tun 

Künstliche Intelligenz (KI) „ernährt sich“ von Daten. Insbesondere neuronale Netze und Deep Learning, wie TensorFlow, sind unersättlich. Doch trotz ihrer Bedeutung werden Daten oft stiefmütterlich behandelt. In der Regel wird bei der Planung eines neuen Datenanalyseprojekts erst über alles andere gesprochen: über die Qualifikation der Datenwissenschaftler, die richtigen Tools, Termine und natürlich das Budget. Auch deshalb wird am Ende die meiste Zeit eines Datenanalyseprojekts (Meßbereich von 50% bis <80%) für die Suche, Erfassung und Verfeinerung von Daten aufgewendet. Um Zeit und Geld zu sparen, sollte der Datenbedarf im Voraus festgelegt werden, um entsprechende Datenpools anzulegen.

Datenpools Anlegen 

Nur sehr wenige Unternehmen werden in der Lage sein, die umfangreichen Datenmengen zu sammeln, die Datenanalyse-Pionieren benötigen, um Erfolgsgeschichten mit Daten zu schreiben, wie z.B. Amazon, Facebook und Google. Ein Trick, um das Spielfeld auszugleichen, ist die Zusammenarbeit mit anderen und die gemeinsame Erstellung von Datenpools. Daten können dabei auf verschiedene Art gesammelt werden:
(a) vertikal, entlang den sequentiellen Phasen einer Lieferkette (z. B. um die voraussichtliche Ankunftszeit einer Lieferung vorherzusagen)
(b) horizontal, für z.B. einen bestimmten Maschinentyp über alle Benutzer und Industrien hinweg (um beispielsweise Ausfälle vorherzusagen und die Betriebszeit zu verbessern), indem diese „übereinandergestapelt“ werden, um „Daten-Sandwiches“ zu erstellen. Ein Beispiel ist das Überlagern von Straßenkarten mit Daten über Fahrzeugverkehr, Personenverkehr, Wetterbedingungen und Ereignisinformationen zur Vorhersage von Verkehrsströmen.

Data Governance für die Verwendung gepoolter Daten erforderlich 

Dennoch, als Datenwissenschaftler stoßen wir häufiger auf dieses Problem: Unzureichende Mengen an guten Daten. Das Zusammenführen von Daten aus verschiedenen Quellen könnte die Lösung sein und in einem aktuellen Interview mit t3n sprach sich sogar Bundesminister Altmaier für europaweite Datenpools aus (29. Mai 2019). Doch bis vor kurzem war es schwierig, Daten mit anderen zu bündeln. Ein zentrales Anliegen war die Datenverwaltung und die Fähigkeit, diese effektiv zu verwalten. „Die Frage der Datensouveränität ist für unsere Wettbewerbsfähigkeit von entscheidender Bedeutung „, resümiert Bundesminister Altmaier. 

Die International Data Spaces Assoziation (IDSA) hat auf diese Herausforderung reagiert und einen Entwurf für eine Data Governance-Architektur erstellt, der Datenpools und Daten-Sandwiches über Unternehmensgrenzen hinweg ermöglicht, ohne die Verwaltung der Data Governance zu beeinträchtigen. IDSA definiert Data Governance als „die Fähigkeit einer natürlichen oder juristischen Person, sich in Bezug auf ihre Daten vollständig selbst zu bestimmen“ (IDSA Reference Architecture Mode 3.0, Seite 9). IDSA ist ein Branchenverband, der zur Förderung von Data Governance-Architekturlösungen auf der Grundlage von Untersuchungen des deutschen Fraunhofer-Instituts mit Mitteln der Bundesregierung gegründet wurde (Fraunhofer-Initiative für sicheren Datenraum, 2015). Heute gehören Automobilhersteller wie Volkswagen, Zulieferer wie Bosch und traditionelle Spezialisten für Informations- und Kommunikationstechnologie wie IBM und die Deutsche Telekom dazu. 

Referenzen