Deze opinie is van een externe deskundige. De inhoud vertegenwoordigt dus niet noodzakelijk het redactionele gedachtegoed van Channelweb.

Big data, bestaat het wel?

In de definitie van big data worden termen als volume, ongestructureerdheid, snelheid en variatie gebruikt. Dat maakt het een behoorlijke vage en allesomvattend term, maar definities zijn net als orde en netheid voor de dommen, want alleen het genie beheerst de chaos. Als je op zoek bent naar het gouden businessidee verwacht je niet dat deze op een presteerblaadje wordt aangeboden. Dat zijn namelijk opinies, gedachten van een ander.

De big data binnen sociale media zijn ook de gedachten van een ander. In onze ijver om alles te digitaliseren staan met sociale onze gedachten sneller op internet dan op papier, wat natuurlijk een goudmijn is voor sociologen, politicologen, psychologen en ieder die zich wetenschappelijk bezig houdt met de samenleving, menselijke geest en bijkomend gedrag. Data mining in de cloud geeft dan soms inderdaad inzicht in relaties die anders verborgen blijven doordat sociale netwerken een soort ‘relationele’ databases zijn. En dus terwijl iedereen bezig is met Wordfeud, het ouderwetse Scrabble op iternet, zitten anderen dus gewoon Cluedo te spelen.

Relativiteitstheorie

Bij het zoeken naar de speld in de hooiberg gaat het trouwens altijd om de clou, de aanwijzing of het idee dat de oplossing er is maar dat deze nog niet zichtbaar is door alle dingen er om heen. Dat is net als de beeldhouwer die zijn meesterwerk al ziet in een rotsblok maar er alleen nog de overbodige stukken steen van weg hoeft te halen. En dat hoeft in tegenstelling tot de definitie die er gegeven wordt zeker niet altijd vlug te gebeuren maar wel heel behoedzaam om niet mis te slaan. Dit geldt zeker voor het verwerken van medische data en onderzoeksgegevens waar zeker niet te snel in conclusies gesprongen mag worden. Zekerheid, zorgvuldigheid, reproduceerbaarheid en controleerbaarheid zijn daar de kernwoorden die succes of falen bepalen. Want juist in deze onderzoeksgebieden is het de regel dat wie te snel wil zich uiteindelijk prikt aan de speld die in de hooiberg verstopt ligt. Of in het geval van de relativiteitstheorie aan de naald van een heel snel draaiend spinnewiel, een deeltjesversneller waarmee nog niet aangetoond is dat we in de tijd kunnen reizen.

De matrix

Waarde van grote data naar een organisatie valt dan eigenlijk ook uiteen in twee categorieën: analytische gebruik en het mogelijk maken van nieuwe producten of diensten. Hierbij is laatste misschien teveel een modewoord dat in speelt op onze natuurlijke nieuwsgierigheid om in de toekomst te kijken. Misschien dat de prognose beter wordt als rekening gehouden wordt met duizend factoren in plaats van tien of honderd, maar dan nog wordt het toeval niet uitgesloten. Het toeval bijvoorbeeld dat we E.T. vinden in de astronomische hooiberg met het Seti@Home-project. Dit project is ooit geboren uit zuinigheid maar ondertussen overgenomen door Boinc en vele andere computergrids. Hiermee worden tegenwoordig veel wiskundige formules en grote hoeveelheden data onderzocht. Enig probleem is de snelheid die uiteindelijk bepaald wordt door de schaalbaarheid van het netwerk, de prestatie van de opslag en de software zoals Hadoop, Gridgain, Hazelcast, DAC en vele andere open source-alternatieven.

1 + 1 = 3

Met cloud computing hebben we een schaalbaarheid die minder wispelturig is dan Boinc waar beschikbaar stellen van rekenkracht op basis van vrijwilligheid gedaan wordt. Dat stelt natuurlijk wel eisen aan het netwerk waarin latency vermeden moet worden en ook de beveiliging niet vergeten mag worden. Maar nog belangrijker is het magazijn, de opslag waar zowel voorraad werk (halffabricaat) als het eindproduct ligt. Hoge capaciteit disken als sata bieden een mogelijkheid om goedkoop petabytes op te slaan maar zijn te traag voor snelle verwerking. En solid state disken (ssd) zijn wel snel maar bieden weer niet de benodigde capaciteit. Dat vraagt dus om een ‘tiered' oplossing waar snelheid zo dicht mogelijk bij de krachtigste verwerker gebracht wordt. En hoewel sommige het ontraden en direct attached storage (das) adviseren is een storage area netwerk (san) uiteindelijk de enige oplossing. De datamanagement mogelijkheden hiervan bieden namelijk ook ‘low level' trucs om te voorkomen dat netwerk overbelast wordt en processorkracht verspild.

Bibelebontse berg

De berg data is soms gigantisch, niet alleen produceren we dagelijkse in sociale media gigabytes maar ook in de wetenschap worden enorme hoeveelheden aangemaakt. We moeten echter niet proberen de berg te verplaatsen, zelfs met huidige netwerkbandbreedte duurt dat vaak gewoon te lang. Nee, we moeten er het datawarehouse op bouwen zodat we de digitale pap in onze digitale nap krijgen. Grid computing en data grids zoals we deze kennen van peer-to-peer netwerken zijn de sleutel tot deze Bibelebontse berg, het internet waarmee we met onze computers, smartphones of tablets dagelijks nieuwe data produceren en consumeren. Realtime of just in time is uiteindelijk gewoon een scheduling probleem, de logistiek die opgelost kan worden met ‘cloud bursting' waarmee we een enorme en controleerbare schaalbaarheid hebben.

Jouw reactie

Je bent niet ingelogd. Je kunt als gast reageren, maar dan wordt je reactie pas zichtbaar na goedkeuring door de redactie. Om je reactie direct geplaatst te krijgen, moet je eerst rechtsboven inloggen of je registreren

Je naam ontbreekt
Je e-mailadres ontbreekt
Je reactie ontbreekt
Computable Expert
Ewout  Dekkinga

Ewout Dekkinga
Iets met ICT, nvt. Expert van Computable voor de topics: Datacenters, Cloud Computing en Systeembeheer.
Hele profiel

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×