Onze excuses, deze website ondersteunt de website print functie niet.

De onderscheidende factor van Big Data

Big Data heeft zich ontwikkeld van een enorm probleem aan het begin van de eeuw tot een belangrijke zakelijke kans nu ruim tien jaar later. In een recent onderzoek noemde The McKinsey Global Institute Big Data te groot, te divers en te snel voor kosteneffectieve opname in de bestaande database-architectuur. Dat betekent dat er alternatieve manieren nodig zijn voor de opslag, verwerking en mining van Big Data. Zoals The Economist stelde in 2010: “Bedrijfsleven, overheid en samenleving zijn nog maar net begonnen met het exploiteren van het reusachtige potentieel van Big Data”. De oplossing kwam vooral met de snel groeiende capaciteit van cpu's en opslagapparatuur maar ook als gevolg van nieuwe opensource-software zoals Hadoop, die ontwikkeld is met Google-technologie en door onder andere Yahoo! is geïmplementeerd. Inmiddels zijn er andere programma's ontwikkeld voor het opslaan en beheren van Big Data zoals NoSQL en databases voor massale parallelle verwerking, zoals Netezza van IBM, Vertica van HP, EMC Greenplum, CalPont, EXASOL, Kognitio, en ParAccel.

Het voordeel van de reusachtige hoeveelheid op het web verzamelde en opgeslagen informatie is niet alleen het directe gebruik ervan, waardoor een sneeuwbaleffect ontstaat voor zakelijke en maatschappelijke toepassingen; de echte potentie ligt besloten in aggregatie, analyse van de collectieve betekenis en multidisciplinaire interpretatie van de informatie. Dit is waar Big Data ten tonele verschijnt. Bij het opslaan en beheren van individueel verzamelde gegevens kunnen wel honderden of zelfs duizenden terabytes gemoeid zijn, meer dan de capaciteit van traditionele relationele databases toelaat. Tevens zijn nieuwe maatregelen nodig voor een adequate omgang met ongestructureerde gegevens en het hoge tempo waarin die ontstaan en hun waarde verliezen. Opkomende technologieën zoals Hadoop zijn ontworpen voor de verwerking van zeer grote hoeveelheden semi-gestructureerde gegevens. De NoSQL-technologie pakt de kwestie van schaalbaarheid beter aan dan mogelijk is met relationele databases. In combinatie met Big Data-platforms voor de opslag van alle gegevens in oorspronkelijk formaat is het mogelijk enorme, ongestructureerde, vluchtige en in zekere mate ruwe gegevens bruikbaar te maken door ze massaal parallel te verwerken en slimme technieken voor analyse toe te passen.

12