Managed hosting door True
Deze opinie is van een externe deskundige. De inhoud vertegenwoordigt dus niet noodzakelijk het gedachtegoed van de redactie.

Big data voor dummies

 

Computable Expert

Tom van Maanen
Managing Consultant, Capgemini. Expert van Computable voor het topic Datamanagement.

Mijn voorspelling is dat we dit jaar de doorbraak van big data gaan zien. En mijn volgende voorspelling is dat het de dummies zijn die voor die doorbraak gaan zorgen.

Maar eerst ga ik toch weer eens definiëren wat ik onder big data versta. Big data is het opslaan van grote hoeveelheden data die domweg te omvangrijk zijn om op een enkele server geplaatst te kunnen worden. We hebben dus meerdere servers nodig om de gegevensbestanden op te zetten. We praten dan al snel over tien of meer servers die we nodig hebben. Het gaat dan om honderden Terabytes aan gegevens. Dergelijke gegevens kunnen afkomstig zijn van sensordata van machines of cdr's van een telco.

Om gegevens die op veel machines verspreid staan te kunnen benaderen zijn speciale technieken ontwikkeld. Simpel gezegd komt het neer op programma’s die een query eerst opdelen over de verschillende machines. In een volgende stap worden de deelresultaten van de verschillende machines samengevoegd tot een antwoord op de query.

Om dit te kunnen doen, moesten de ontwikkelaars speciale Java-programma’s schrijven die de taken konden uitvoeren. Het eerste deel van het programma splitste de taak op over de verschillende machines en het tweede deel van programma voegde de deelresultaten samen tot het antwoord. In sommige high tech-organisaties kon men dat. Ik heb me laten vertellen dat een bekende online-boekverkoper in feite een high tech-bedrijf is waar veel wizz kids heel slimme Java-programma’s schrijven die ons precies vertellen welke boeken het best in onze smaak vallen.

Voorbeelden

Maar een dergelijke aanpak is niet voor alle bedrijven weggelegd die aan de slag gaan met big data. En voor dit soort bedrijven zijn er nu allerlei producten gemaakt die het mogelijk maken big data te gebruiken. Ik noem een paar producten bij wijze van voorbeeld. Ik weet wel dat er nog veel meer is, maar ik vond de producten mooie voorbeelden van een algemene trend om big data voor dummies beschikbaar te krijgen.

Laat ik eerst eens het product R van de R Foundation noemen. R is een razend goede statistische tool die complexe statistische berekeningen kan uitvoeren. Anderzijds is de scripting taal om R te laten werken niet zo ingewikkeld. De gebruiker kan vrij eenvoudig complexe statistiek doen. Bovendien is R een open-source product. Daarmee heeft R de support gekregen van de wetenschappelijke gemeenschap, die ertoe geleid heeft dat R tegenwoordig een serieuze bedreiging is van grote commerciële software verkopers. Tegenwoordig kun je vanuit R de big data benaderen met behulp van (bijvoorbeeld) RHadoop. Dat stelt je in staat om R-achtige scripts te schrijven die onder water de taken verdeelt over de verschillende servers waarop de big data staan en die vervolgens de deelresultaten samenvoegt en teruggeeft aan R. Het voordeel voor de R-dummy die geen zin heeft om ineens Java te moeten schrijven, is dat hij in zijn R-omgeving kan blijven en dat hij beschikt over de voordelen van big data. Op die manier komt big data binnen het bereik van de R-community.

Vervolgens het product Informatica. Informatica is een hele goede extraction, transformation and load (etl)-tool, die ook nog eens bijdragen kan leveren op het gebied van master data management. Veel gebruikers zijn maar wat blij met Informatica. Op een eenvoudige manier kunnen ze gegevens van de ene omgeving naar de andere verplaatsen. De omgeving is goed performant en prettig beheersbaar. En sinds kort heeft Informatica ook een connector naar big data. En dat opent ineens prettige opties. Je zou kunnen overwegen om een overvol data warehouse naar big data te migreren met behulp van Informatica. Of je zou kunnen overwegen om grote hoeveelheden sensor data met Informatica in een big data omgeving op te slaan. En je kunt dat doen, terwijl de ontwikkelaar in een bekende Informatica-omgeving blijft, waarbij de big data slechts een van de omgevingen is waarheen hij data kan wegschrijven. Het voordeel van deze opzet is dat er geen Java geleerd hoeft te worden. En de organisatie kan de voordelen van big data gaan gebruiken. Dat betekent dat de Informatica-dummy toe kan treden tot de big data-gebruikers.

Dan het pakket Pivotal. Pivotal biedt de gebruiker een big data-omgeving waar hij de data over verschillende servers kan verdelen. Daarnaast biedt Pivotal een tool (HAWQ) waarmee de gebruiker met gewone SQL de gegevens kan benaderen en kan analyseren. Het voordeel voor de gebruiker is dat hij SQL kan blijven gebruiken, zonder dat hij Java moet leren om de gegevens te benaderen. Hij krijgt daarmee de mogelijkheid te genieten van big data zonder door het Java-stof te moeten. Dat betekent dat de SQL-dummy gewoon dummy kan blijven als hij aan de slag gaat met big data.

Conclusie

Ik weet het: ik heb een hoop producten niet genoemd. Als testje heb ik in Google een aantal bekende rapportage tools ingevoerd met Hadoop als extra zoek term. Ik zag dat iedere moderne rapportage tool tegenwoordig wel een connector naar de big data-omgeving biedt. Het is duidelijk dat iedere software leverancier probeert de gebruikers ook toegang te bieden tot big data. En dat gebeurt dan zonder dat de gebruikers complexe Java-programma’s moeten schrijven om de analyse mogelijk te maken. Daarmee krijgen we een hoop dummies die aan de slag gaan met big data.  En volgens mij zorgen al die mensen ervoor dat mijn voorspelling gaat uitkomen: de dummies zorgen voor de doorbraak van het gebruik van big data.

Dit artikel is afkomstig van Channelweb.nl (https://www.channelweb.nl/artikel/5253199). © Jaarbeurs IT Media.

?

 

Stuur door

Stuur dit artikel door

Je naam ontbreekt
Je e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.