Was ist Big Data?

Big Data ist seit Jahren in der Geschäftswelt ein geflügeltes Wort. Ich hab allerdings die Erfahrung gemacht, dass die Wenigsten wissen, was man unter Big Data versteht. In diesem Blogbeitrag möchte ich für etwas Klarheit sorgen – ich versuche, diesen diffusen Begriff näher zu erklären. Soviel sei vorweg schon gesagt: Eine einheitliche Big Data Definition existiert nicht.

Was ist Big Data? Das 3V Modell

In der Literatur findet man viele verschiedene Definitionen, wobei sich die meisten von ihnen auf das 3V Modell stützen, welches ursprünglich 2001 von einem Gartner Analysten eingeführt wurde (Gartner ist ein internationales, auf Technologie spezialisiertes Marktforschungsunternehmen). Im Kern handelt es sich dabei um die Integration der drei Dimensionen bzw. Schlüsselmerkmale von Big Data: Datenmenge (Volume), Datenvielfalt (Variety) und Geschwindigkeit (Velocity). Zusammen bilden diese drei Merkmale die drei „V’s“. Andere Modelle haben dieses Basismodell um weitere „V’s“ noch erweitert, wie zum Beispiel Datenwahrheit (Veracity).

Datenmenge: Wieviel ist viel?

Big Data impliziert, dass große Datenmengen vorliegen sollten, damit von Big Data überhaupt die Rede ist. Wie so oft gibt es aber auch hier keine vordefinierte Schwelle, ab wann ein Unternehmen Big Data erreicht hat. Die Datenmenge ist relativ. Für das eine Unternehmen bedeutet es einige Gigabyte, für das nächste mindestens ein Terabyte an Daten, welche analysiert werden wollen. Weiters müssen die Daten nicht unbedingt „intern“ vorliegen, sondern können auch dazugekauft und mit internen Daten verknüpft und analysiert werden. Das ist ein wesentlicher Punkt für kleinere Unternehmen, die selbst über relativ wenig Datenmaterial verfügen.

Datenvielfalt: Strukturiert oder doch nicht?

Ja, früher war es relativ einfach: Es gab im Unternehmen strukturierte Daten, welche zum Beispiel in Form von Verkaufsvolumina (mengen- und wertmäßig), Anzahl der Kunden, oder in diversen Kennzahlen vorlagen. Heute ist es etwas diffiziler: Vor allem die sozialen Netzwerke beglücken uns mit unstrukturierten Daten. Dazu zählen zum Beispiel Textdaten, Videodaten und Bildmaterial aus Tweets und Blogeinträgen. Auch semistrukturierte Daten (z. B. xml-Dateien) fließen heute in Big Data Analysen ein. Speziell entwickelte Big Data Software und Analysetools können strukturierte, semi-strukturierte und unstrukturierte Daten analysieren und so versuchen, Korrelationen herauszufiltern.

Schnell muß es gehen

Das Merkmal der Datengeschwindigkeit (Velocity) wird oft missinterpretiert, da es meist mit Real-Time Analytics gleichgesetzt wird, also mit der Datenanalyse in Echtzeit. Es geht aber auch um die Verknüpfung von Data Sets, die mit unterschiedlicher Geschwindigkeit verfügbar sind. Hierunter fallen zum Beispiel auch Daten, die nur sporadisch anfallen.

Realtime-Analyse ist aber heutzutage im E-Commerce, also im Online-Handel, extrem wichtig. Tools, die auf „Empfehlungsmarketing“ basieren, müssen in Echtzeit Daten abgleichen können. Als Beispiel möchte ich hier Amazon erwähnen: Sobald Sie ein Produkt in den Warenkorb legen, wird Ihnen ein weiteres, passendes Produkt angeboten, um so den Warenkorb zu vergrößern und mehr Umsatz zu generieren. Auch beim Thema Betrugsbekämpfung (zum Beispiel bei der Kreditkartenbezahlung im  Internet) ist dies ein Thema.

Auf den Punkt gebracht

Abgesehen vom 3V-Modell gibt es noch etliche Erklärungsversuche von Big Data. Andere verstehen darunter die Vielfalt an Technologien, die Vielfalt an analytischen Methoden, Modellierungs- und Designverfahren, oder die Vielfalt an kommerziellen Konzepten.

Meine eigene quick-and-dirty Erklärung ist folgende: Die Basisidee hinter Big Data ist, dass wir heute in allem was wir tun, eine digitale Spur (oder Daten) hinterlassen, welche wir (oder andere) nutzen und analysieren können. Big Data bezieht sich auf diese große Menge an verschiedenartigen Daten unterschiedlicher Herkunft und deren Nutzung, wobei das Endziel eine sinnvolle Interpretation der Daten sein sollte.

Bei Big Data geht es also nicht nur um große Datenmengen. Es geht viel eher darum, Möglichkeiten zu finden, neue Einblicke in existierende Daten zu gewinnen, sowie künftige Daten sinnvoll zu nutzen. Die Datenmengen müssen gespeichert, verwaltet und analysiert werden, bevor sie zur Optimierung von Geschäftsprozessen verwendet werden. Schließlich sollen die Daten dazu genutzt werden, um einen Wettbewerbsvorteil zu bringen.

Ich hoffe, ich konnte mit diesem Beitrag das Thema Big Data etwas entmystifizieren.

0 Kommentare

Dein Kommentar

An Diskussion beteiligen?
Hinterlasse uns Deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.