De informatiebron voor het Nederlandse ICT-resellerkanaal   Adverteren | Mobiel | Contact  
Channelweb
 Zoek
Nieuwsbrief
Reacties
Bedrijvengids
Mobiel



Nieuws aanmelden
Heb je nieuws voor ICT-resellers? Gebruik het aanmeldformulier.
Agendapunt melden
RSS-feed Volg ons via Twitter

 
Opinie
 Terug Mail aan een vakgenootPrintvriendelijke versie   

Big data, bestaat het wel?

In de definitie van big data worden termen als volume, ongestructureerdheid, snelheid en variatie gebruikt. Dat maakt het een behoorlijke vage en allesomvattend term, maar definities zijn net als orde en netheid voor de dommen, want alleen het genie beheerst de chaos. Als je op zoek bent naar het gouden businessidee verwacht je niet dat deze op een presteerblaadje wordt aangeboden. Dat zijn namelijk opinies, gedachten van een ander.

De big data binnen sociale media zijn ook de gedachten van een ander. In onze ijver om alles te digitaliseren staan met sociale onze gedachten sneller op internet dan op papier, wat natuurlijk een goudmijn is voor sociologen, politicologen, psychologen en ieder die zich wetenschappelijk bezig houdt met de samenleving, menselijke geest en bijkomend gedrag. Data mining in de cloud geeft dan soms inderdaad inzicht in relaties die anders verborgen blijven doordat sociale netwerken een soort ‘relationele’ databases zijn. En dus terwijl iedereen bezig is met Wordfeud, het ouderwetse Scrabble op iternet, zitten anderen dus gewoon Cluedo te spelen.

Relativiteitstheorie

Bij het zoeken naar de speld in de hooiberg gaat het trouwens altijd om de clou, de aanwijzing of het idee dat de oplossing er is maar dat deze nog niet zichtbaar is door alle dingen er om heen. Dat is net als de beeldhouwer die zijn meesterwerk al ziet in een rotsblok maar er alleen nog de overbodige stukken steen van weg hoeft te halen. En dat hoeft in tegenstelling tot de definitie die er gegeven wordt zeker niet altijd vlug te gebeuren maar wel heel behoedzaam om niet mis te slaan. Dit geldt zeker voor het verwerken van medische data en onderzoeksgegevens waar zeker niet te snel in conclusies gesprongen mag worden. Zekerheid, zorgvuldigheid, reproduceerbaarheid en controleerbaarheid zijn daar de kernwoorden die succes of falen bepalen. Want juist in deze onderzoeksgebieden is het de regel dat wie te snel wil zich uiteindelijk prikt aan de speld die in de hooiberg verstopt ligt. Of in het geval van de relativiteitstheorie aan de naald van een heel snel draaiend spinnewiel, een deeltjesversneller waarmee nog niet aangetoond is dat we in de tijd kunnen reizen.

De matrix

Waarde van grote data naar een organisatie valt dan eigenlijk ook uiteen in twee categorieën: analytische gebruik en het mogelijk maken van nieuwe producten of diensten. Hierbij is laatste misschien teveel een modewoord dat in speelt op onze natuurlijke nieuwsgierigheid om in de toekomst te kijken. Misschien dat de prognose beter wordt als rekening gehouden wordt met duizend factoren in plaats van tien of honderd, maar dan nog wordt het toeval niet uitgesloten. Het toeval bijvoorbeeld dat we E.T. vinden in de astronomische hooiberg met het Seti@Home-project. Dit project is ooit geboren uit zuinigheid maar ondertussen overgenomen door Boinc en vele andere computergrids. Hiermee worden tegenwoordig veel wiskundige formules en grote hoeveelheden data onderzocht. Enig probleem is de snelheid die uiteindelijk bepaald wordt door de schaalbaarheid van het netwerk, de prestatie van de opslag en de software zoals Hadoop, Gridgain, Hazelcast, DAC en vele andere open source-alternatieven.

1 + 1 = 3

Met cloud computing hebben we een schaalbaarheid die minder wispelturig is dan Boinc waar beschikbaar stellen van rekenkracht op basis van vrijwilligheid gedaan wordt. Dat stelt natuurlijk wel eisen aan het netwerk waarin latency vermeden moet worden en ook de beveiliging niet vergeten mag worden. Maar nog belangrijker is het magazijn, de opslag waar zowel voorraad werk (halffabricaat) als het eindproduct ligt. Hoge capaciteit disken als sata bieden een mogelijkheid om goedkoop petabytes op te slaan maar zijn te traag voor snelle verwerking. En solid state disken (ssd) zijn wel snel maar bieden weer niet de benodigde capaciteit. Dat vraagt dus om een ‘tiered' oplossing waar snelheid zo dicht mogelijk bij de krachtigste verwerker gebracht wordt. En hoewel sommige het ontraden en direct attached storage (das) adviseren is een storage area netwerk (san) uiteindelijk de enige oplossing. De datamanagement mogelijkheden hiervan bieden namelijk ook ‘low level' trucs om te voorkomen dat netwerk overbelast wordt en processorkracht verspild.

Bibelebontse berg

De berg data is soms gigantisch, niet alleen produceren we dagelijkse in sociale media gigabytes maar ook in de wetenschap worden enorme hoeveelheden aangemaakt. We moeten echter niet proberen de berg te verplaatsen, zelfs met huidige netwerkbandbreedte duurt dat vaak gewoon te lang. Nee, we moeten er het datawarehouse op bouwen zodat we de digitale pap in onze digitale nap krijgen. Grid computing en data grids zoals we deze kennen van peer-to-peer netwerken zijn de sleutel tot deze Bibelebontse berg, het internet waarmee we met onze computers, smartphones of tablets dagelijks nieuwe data produceren en consumeren. Realtime of just in time is uiteindelijk gewoon een scheduling probleem, de logistiek die opgelost kan worden met ‘cloud bursting' waarmee we een enorme en controleerbare schaalbaarheid hebben.


Ewout Dekkinga 
 
 
 
 Reageer op dit artikel 
 
Meer Opinie:
1 september 10:18
Sommige applicaties niet geschikt voor cloud
29 augustus 14:00
Een andere kijk op cloud computing
28 augustus 10:31
Open Data NL is hinken op twee benen
27 augustus 10:03
Cyberaanvallen eisen actieve verdediging
26 augustus 13:10
Druk op chipfabrikanten Europa en Japan groeit
25 augustus 13:01
Hoe grip te houden op een IT-landschap
25 augustus 9:45
De computer verdwijnt uit zicht
22 augustus 10:39
BYOD alleen in netwerk met unified access
21 augustus 13:27
De bom onder total contract value
20 augustus 12:50
SDS adresseert uitdagingen traditionele storage
20 augustus 10:18
Naar de cloud door de ogen van Darwin

  


Adverteren  |   Disclaimer  |   Privacy  |   Cookiebeleid  |   IT Banen  |   Computable  |   Channelweb  |   IT Knowledge Base  |   Tweakers.net  |   Autotrack.nl  |   Marqit.nl



Alle rechten voorbehouden © Marqit