Iedereen maakt het weleens mee: je zoekt naar een presentatie in je mailbox of in een map, maar je weet niet meer precies hoe het document heet. Zoeken op naam levert niets op. Je bent intussen een kwartier verder, maar het bestand is nog niet gevonden. Diverse onderzoeken naar dit verschijnsel laten zien dat we steeds meer tijd kwijt zijn aan zoeken. Dat geldt niet alleen voor individuele gebruikers, maar ook voor organisaties als geheel. Het is duidelijk dat we tools nodig hebben om de spreekwoordelijke speld in een hooiberg te vinden.
Dit klemt te meer nu big data op de agenda van bedrijven komt te staan. We praten niet langer over gigabytes of terabytes, maar over petabytes en exabytes. Daarbij levert het opslaan van data per definitie nog geen informatie op. Dat is juist het probleem voor veel organisaties. Zo verzamelen supermarkten grote hoeveelheden verkoop- en klantdata. Daar willen ze iets mee, zoals een trend destilleren of nieuw beleid formuleren. Om te beginnen zal die informatie doorzoekbaar moeten zijn. Dat gebeurt in toenemende mate door het inzetten van contentindexering.
Hierbij is niet langer de bestandsnaam of de (sub)directory leidend, maar de inhoud. Een indexeringtool 'leest' de inhoud van elk bestand en stelt vast of het voldoet aan de zoekopdracht van de gebruiker. Contentindexering is online en offline mogelijk. Offline komt het meeste voor, omdat hier de productieomgeving ongemoeid gelaten kan worden. Pas na het back-uppen of archiveren vindt indexering plaats. Dat scheelt niet alleen in de kosten doordat minder resources nodig zijn, maar het is ook veiliger. Actieve gegevens zijn relatief dynamisch. De gebruiker verplaatst deze makkelijk. Dat maakt online contentindexering foutgevoelig doordat een document bijvoorbeeld na het indexeren door een gebruiker verplaatst is. Back-ups en archieven zijn veel statischer en daardoor bij uitstek geschikt voor contentindexering.
Een belangrijk aandachtspunt bij contentindexering is uiteraard beveiliging. Een organisatie zal immers willen voorkomen dat medewerkers via zoekopdrachten toegang krijgen tot bestanden die ze normaal gesproken niet kunnen openen, omdat ze daartoe de rechten niet hebben. Dit vereist dus van een indexeringtool dat die te integreren is met bijvoorbeeld de Active Directory, zodat de rechtenstructuur ook bij het zoeken intact blijft.
Contentindexering speelt vooral in de Verenigde Staten een belangrijke rol in legal search. Bij (juridische) conflicten is met een eenvoudige zoekopdracht in een keer alle relevante documentatie rond bijvoorbeeld een order te ontsluiten. In Europa komt dit nog maar beperkt voor, mede doordat de EU-landen verschillende regels hanteren voor wat betreft schriftelijk bewijsmateriaal. De Europese Commissie werkt overigens wel aan meer harmonisatie op dat gebied. Dit kan betekenen dat legal search ook in de EU op termijn vaker ingezet zal worden.
Contentindexering speelt verder een nuttige rol bij het voorkomen van redundantie. Gebruikers en it-beheerders zijn vaak terughoudend in het wissen van bestanden. Je kunt immers nooit weten of iets nog eens nodig is... Door op inhoud te indexeren, is te bepalen welke bestanden nog nuttig en nodig zijn om actief te worden gehouden, en welke beter een plek kunnen krijgen op goedkopere archiefopslagmedia.
Big data zal de komende tijd steeds hoger op de agenda van organisaties komen te staan. Contentindexering is een van de uitstekende middelen om de uitdagingen op dit gebied aan te gaan.
Michiel von der Crone
Director Field Advisory Services Team EMEA
CommVault