Data-analisten NFI over big data: ‘Het begint met nullen en enen’

De digitale analisten van het Nederlands Forensisch Instituut werken met gigantische datasets. In 2011 is voor de intelligente data-analyse van deze gegevens samen met politie en justitie een kenniscentrum opgericht. Menno Israël en Erwin van Eijk vertellen wat er bij het verzamelen en analyseren van big data komt kijken.

Een gemiddelde zaak die bij het Nederlands Forensisch Instituut (NFI) binnenkomt omvat 4 terabyte aan data. ‘Op één A4’tje kun je zo’n 8 kilobyte aan informatie kwijt,’ rekent Erwin van Eijk, forensisch deskundige digitale technologie bij het NFI, voor. Hij vervolgt: ‘In een pak papier zitten vijfhonderd A4’tjes, in een doos zitten vijf pakken papier, er passen twintig dozen op een pallet en er kunnen in totaal 33 pallets in een vrachtwagen. Als je die 4 terabyte aan data dus per A4’tje uitprint en in een vrachtwagen stopt, heb je een file van Den Haag tot Zoetermeer.’ In één klap is daarmee duidelijk gemaakt hoe omvangrijk de informatie is waar bij het NFI mee gewerkt wordt. In opdracht van het Openbaar Ministerie en de politie is het forensisch instituut, gevestigd in een blokkendoos naast de snelweg A4 in het Haagse Ypenburg, betrokken bij het onderzoeken van criminele zaken. Dat varieert van moordzaken en mensenhandel tot fraude en kinderporno.

‘Het komt er in feite op neer dat wij alle relevante informatie van devices die de politie bij ons aflevert, proberen eraf te halen,’ vertelt Van Eijk. Dan gaat het dus niet om klantgegevens van de Albert Heijn of alle woningtransacties uit een bepaalde periode. Het unieke van de big data waarmee het NFI te maken heeft, zit hem erin dat het niet gaat om de grootste gemene deler, maar juist om de afwijking. ‘We zoeken naar digitale sporen die een verdachte heeft achtergelaten. Dat kunnen ook data zijn die verdwenen zijn, een boef drukt weleens op delete.’ Zo hebben Van Eijk en zijn collega’s in de zaak-Robert M. alle kinderpornofoto’s teruggehaald die hij van zijn computer had verwijderd. ‘Die had hij wel goed weggehaald, niet zomaar naar de prullenbak verplaatst.’ Verdachten, getuigen en slachtoffers verzamelen informatie op hun harde schijf, telefoon, usb-stick of camera, vervolgt hij. ‘Soms heb je te maken met een gebruiker die heel netjes en geordend is, maar het komt ook voor dat het een grote bende is op zo’n computer. Dat kan heel onoverzichtelijk zijn.’

Heterogeen
De club van Van Eijk – in totaal 26 medewerkers – is ervoor verantwoordelijk alle ruwe data van in beslag genomen apparaten te halen. ‘Dat lijkt voor de hand te liggen, maar is het niet,’ zegt hij. ‘Het begint met nullen en enen en vervolgens moet er van alle gegevens één coherent verhaal gemaakt worden.’ Van Eijk ontwikkelt daar tools voor. ‘De standaardoplossingen werken niet op de heterogeniteit aan data waarmee we hier te maken hebben.’

Zodra alle data boven tafel zijn, gaan ze, grof gezegd, naar de unit die Menno Israël aanstuurt. Hij is teamleider van Kecida, het kennis- en expertisecentrum voor intelligente data-analyse van het NFI, dat sinds 2011 officieel deel uitmaakt van de strafrechtketen. Zijn team analyseert alle gegevens die zijn verkregen. ‘Dat luistert nogal nauw,’ zegt Israël. ‘We hebben immers te maken met bewijsmateriaal. In de rechtbank moet de officier van justitie wel een correct verhaal hebben. Onze analyse moet toetsbaar zijn.’ Waar Van Eijk en zijn collega’s alleen met interne bronnen te maken hebben, betrekt Israël – op aangeven en na toestemming van de politie en het openbaar ministerie – vaak externe bronnen bij de analyses. Dat kunnen cameraregistraties rond de snelweg zijn, het weerbericht of informatie over belgedrag. ‘Dat levert onnoemelijk veel data op,’ zegt Israël. ‘Complicerende factor daarbij is dat deze data vaak niet gestructureerd worden aangeleverd. Zo leveren alle telefoonproviders hun informatie anders aan.’

Multidisciplinair
De volgende stap is het analyseren van deze enorme berg data. ‘We breien dan als het ware alle gegevens aan elkaar,’ zegt Israël. Om de data te koppelen en te analyseren wordt gewerkt in multidisciplinaire teams. Israël: ‘Om de informatie betekenis te kunnen geven en op forensisch en wetenschappelijk correcte wijze weer te geven, heb je verschillende expertises nodig. We hebben iemand die zich bezighoudt met tekstanalyses, een ander is gespecialiseerd in kunstmatige intelligentie en een econometrist maakt modellen om patronen te herkennen. En dan op grote schaal natuurlijk, dus geautomatiseerd. We hebben het hier niet over het doorzoeken van drie mailtjes, maar het gaat in een gemiddelde zaak om miljoenen e-mails.’

Kecida wordt niet alleen ingezet in de strafrechtketen, benadrukt Israël tot slot. Ongeveer een derde van de tijd houdt het ‘data science team’ zich bezig met big data-analyses in opdracht van andere organisaties, zoals de Immigratie- en Naturalisatiedienst voor onderzoeken naar mensenhandelzaken. ‘Wij hebben niet alleen de soft- en hardware in huis, maar beschikken over heel veel kennis en expertise hoe om te gaan met big data. Daar kunnen we andere overheidsorganisaties mee helpen.’

Verschenen in PM, 7 februari 2014

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s