De informatiebron voor het Nederlandse ICT-resellerkanaal   Adverteren | Mobiel | Contact  
Channelweb
 Zoek
Nieuwsbrief
Reacties
Bedrijvengids
Mobiel



Nieuws aanmelden
Heb je nieuws voor ICT-resellers? Gebruik het aanmeldformulier.
Agendapunt melden
RSS-feed Volg ons via Twitter

 
Opinie
 Terug Mail aan een vakgenootPrintvriendelijke versie   

Big data, bestaat het wel?

In de definitie van big data worden termen als volume, ongestructureerdheid, snelheid en variatie gebruikt. Dat maakt het een behoorlijke vage en allesomvattend term, maar definities zijn net als orde en netheid voor de dommen, want alleen het genie beheerst de chaos. Als je op zoek bent naar het gouden businessidee verwacht je niet dat deze op een presteerblaadje wordt aangeboden. Dat zijn namelijk opinies, gedachten van een ander.

De big data binnen sociale media zijn ook de gedachten van een ander. In onze ijver om alles te digitaliseren staan met sociale onze gedachten sneller op internet dan op papier, wat natuurlijk een goudmijn is voor sociologen, politicologen, psychologen en ieder die zich wetenschappelijk bezig houdt met de samenleving, menselijke geest en bijkomend gedrag. Data mining in de cloud geeft dan soms inderdaad inzicht in relaties die anders verborgen blijven doordat sociale netwerken een soort ‘relationele’ databases zijn. En dus terwijl iedereen bezig is met Wordfeud, het ouderwetse Scrabble op iternet, zitten anderen dus gewoon Cluedo te spelen.

Relativiteitstheorie

Bij het zoeken naar de speld in de hooiberg gaat het trouwens altijd om de clou, de aanwijzing of het idee dat de oplossing er is maar dat deze nog niet zichtbaar is door alle dingen er om heen. Dat is net als de beeldhouwer die zijn meesterwerk al ziet in een rotsblok maar er alleen nog de overbodige stukken steen van weg hoeft te halen. En dat hoeft in tegenstelling tot de definitie die er gegeven wordt zeker niet altijd vlug te gebeuren maar wel heel behoedzaam om niet mis te slaan. Dit geldt zeker voor het verwerken van medische data en onderzoeksgegevens waar zeker niet te snel in conclusies gesprongen mag worden. Zekerheid, zorgvuldigheid, reproduceerbaarheid en controleerbaarheid zijn daar de kernwoorden die succes of falen bepalen. Want juist in deze onderzoeksgebieden is het de regel dat wie te snel wil zich uiteindelijk prikt aan de speld die in de hooiberg verstopt ligt. Of in het geval van de relativiteitstheorie aan de naald van een heel snel draaiend spinnewiel, een deeltjesversneller waarmee nog niet aangetoond is dat we in de tijd kunnen reizen.

De matrix

Waarde van grote data naar een organisatie valt dan eigenlijk ook uiteen in twee categorieën: analytische gebruik en het mogelijk maken van nieuwe producten of diensten. Hierbij is laatste misschien teveel een modewoord dat in speelt op onze natuurlijke nieuwsgierigheid om in de toekomst te kijken. Misschien dat de prognose beter wordt als rekening gehouden wordt met duizend factoren in plaats van tien of honderd, maar dan nog wordt het toeval niet uitgesloten. Het toeval bijvoorbeeld dat we E.T. vinden in de astronomische hooiberg met het Seti@Home-project. Dit project is ooit geboren uit zuinigheid maar ondertussen overgenomen door Boinc en vele andere computergrids. Hiermee worden tegenwoordig veel wiskundige formules en grote hoeveelheden data onderzocht. Enig probleem is de snelheid die uiteindelijk bepaald wordt door de schaalbaarheid van het netwerk, de prestatie van de opslag en de software zoals Hadoop, Gridgain, Hazelcast, DAC en vele andere open source-alternatieven.

1 + 1 = 3

Met cloud computing hebben we een schaalbaarheid die minder wispelturig is dan Boinc waar beschikbaar stellen van rekenkracht op basis van vrijwilligheid gedaan wordt. Dat stelt natuurlijk wel eisen aan het netwerk waarin latency vermeden moet worden en ook de beveiliging niet vergeten mag worden. Maar nog belangrijker is het magazijn, de opslag waar zowel voorraad werk (halffabricaat) als het eindproduct ligt. Hoge capaciteit disken als sata bieden een mogelijkheid om goedkoop petabytes op te slaan maar zijn te traag voor snelle verwerking. En solid state disken (ssd) zijn wel snel maar bieden weer niet de benodigde capaciteit. Dat vraagt dus om een ‘tiered' oplossing waar snelheid zo dicht mogelijk bij de krachtigste verwerker gebracht wordt. En hoewel sommige het ontraden en direct attached storage (das) adviseren is een storage area netwerk (san) uiteindelijk de enige oplossing. De datamanagement mogelijkheden hiervan bieden namelijk ook ‘low level' trucs om te voorkomen dat netwerk overbelast wordt en processorkracht verspild.

Bibelebontse berg

De berg data is soms gigantisch, niet alleen produceren we dagelijkse in sociale media gigabytes maar ook in de wetenschap worden enorme hoeveelheden aangemaakt. We moeten echter niet proberen de berg te verplaatsen, zelfs met huidige netwerkbandbreedte duurt dat vaak gewoon te lang. Nee, we moeten er het datawarehouse op bouwen zodat we de digitale pap in onze digitale nap krijgen. Grid computing en data grids zoals we deze kennen van peer-to-peer netwerken zijn de sleutel tot deze Bibelebontse berg, het internet waarmee we met onze computers, smartphones of tablets dagelijks nieuwe data produceren en consumeren. Realtime of just in time is uiteindelijk gewoon een scheduling probleem, de logistiek die opgelost kan worden met ‘cloud bursting' waarmee we een enorme en controleerbare schaalbaarheid hebben.


Ewout Dekkinga 
 
 
 
 Reageer op dit artikel 
 
Meer Opinie:
22 oktober 14:20
Ontwerpprincipes voor de cloud
22 oktober 12:51
Supply chain-processen zijn weinig transparant
22 oktober 11:24
Configuration management is een vak apart
21 oktober 13:05
IT-beveiliging lijkt op Rubiks kubus
20 oktober 13:42
Plaatsonafhankelijk printen met Android
20 oktober 10:00
Een goede datacentermanager heeft smetvrees
17 oktober 13:55
Opent de Rijksoverheid de deuren?
17 oktober 13:00
Integreren van ECM-systeem blijft uitdaging
16 mei 15:53
Big data, bestaat het wel?
16 mei 15:53
Big data, bestaat het wel?
16 mei 15:53
Big data, bestaat het wel?

  


Adverteren  |   Disclaimer  |   Privacy  |   Cookiebeleid  |   Algemene Voorwaarden  |   IT Banen  |   Computable  |   Channelweb  |   IT Knowledge Base  |   Marqit.nl



Alle rechten voorbehouden © Marqit