Onze excuses, deze website ondersteunt de website print functie niet.

Big Data-programma's en de opensource-gemeenschap

Big data platformsHet grootste voordeel van de Big Data-revolutie is tegenwoordig dat de gebruikte programma's meestal open source zijn, zoals Apache-Hadoop, -Pig, -HBase, - Cassandra, -S4, Storm, Pegasus, Scribe, Cascading, GraphLab, R, MOA en Vowpal Wabbit. De MapReduce -techniek is door Google bedacht om webpagina's doeltreffend te kunnen indexeren. Hadoop is een opensource-implementatie van MapReduce en wordt het meest gebruikt om non-streaming Big Data te analyseren voor informatie-intensieve gedistribueerde toepassingen. Hadoop biedt een programmeermodel en een softwarekader om grote hoeveelheden gegevens te distribueren via het Hadoop Distributed File System (HDFS) en de gegevens parallel te verwerken. Zoals de naam suggereert analyseert MapReduce de gegevens in twee aparte stappen met behulp van de functies map en reduce (fold).

Grote ondernemingen als Yahoo!, Microsoft, LinkedIn, Facebook, Google en Twitter dragen bij tot het open source karakter van Big Data en doen over en weer hun voordeel met de ontwikkelingen binnen de gemeenschap. Daarnaast werken onderzoekers aan academische instellingen en in het bedrijfsleven nauw met elkaar samen. Zij stellen onderzoeksgebieden vast en wisselen resultaten uit op conferenties zoals ICDM, KDD en ECML-PKDD.

16