Bijdrage van Bloggers (blogs)
Slimmer onderzoek naar relevante e-mails in mailboxen met Artificial Intelligence
Plaatsingsdatum | 13-06-2019 |
Berichtdatum | 3 juni 2019 |
Thom Eijken en Ian Dashorst KPMG Nederland. Het zoeken naar de spreekwoordelijke speld in een hooiberg. Dat is wat het identificeren van relevante informatie in mailboxen van mogelijke betrokkenen tijdens een (forensisch) digitaal onderzoek eigenlijk is. Het is een tijdsintensief proces, waar op verschillende vlakken verbetering en efficiëntie te behalen is. Met een achtergrond in toegepaste wiskunde kijk ik voor mijn masteronderzoek naar een nieuwe aanpak om e-mails voorafgaand aan het reviewproces te schiften om zodoende de arbeidsintensieve handmatige review te vereenvoudigen. Wiskunde, en specifiek statistiek, heb ik al in veel situaties als oplossing gezien voor problemen en zo heb ik dit ook in dit onderzoek toegepast. Het doel van dit masteronderzoek is om met Bayesiaanse statistiek een model op te stellen dat een dergelijke schifting kan maken. Tijdens het e-Discovery symposium, georganiseerd door het lectoraat Digital Forensics en E-Discovery van de Hogeschool Leiden, zijn de eerste onderzoeksresultaten gepresenteerd. Machine Learning voor e-Discovery Een veelgebruikte machine learning-techniek om het review proces te versnellen is Technology Assisted Review (TAR, ook wel bekend als predictive coding)[2]. TAR omvat een model dat wordt getraind op basis van documenten die betrekking hebben op het onderzoek en waarvan reeds bepaald is dat ze relevant zijn. De training wordt dus gedaan op basis van de classificaties die gegeven worden tijdens het handmatige review proces. Dit handmatige reviewproces wordt veelal gedaan door een senior onderzoeker. Het TAR model geeft vervolgens continu nieuwe aanbevelingen van potentieel relevante e-mails. Dit geeft al een veel tijdwinst in het reviewproces, aangezien de kans op het vinden van de relevante e-mails wordt vergroot door de e-mails op getrainde relevantie te sorteren. Eén van de nadelen van TAR is echter dat er een eerste handmatige review nodig is om tot aanbevelingen te komen. Voor de eerste handmatige review zijn ongeveer 200 gereviewde e-mails nodig voordat het model de eerste relevante documenten weergeeft. Om tot een betrouwbaar resultaat te komen, is nog een forse hoeveelheid additionele handmatige review nodig. Met het masteronderzoek probeer ik dit nadeel op te lossen. Classificatie een stap eerder De resultaten, gebaseerd op een dataset uit de praktijk, laten zien dat momenteel 30-40% van de relevante mails met deze aanpak vooraf kunnen worden geclassificeerd als relevant. De gebruikte dataset relateert tot een recent digitaal onderzoek met een totale omvang van 68.486 unieke e-mails, waarvan er 1.595 waren onderzocht en dus konden worden gebruikt voor het trainen en testen van het model. Met een schifting vooraf zou dus 30-40% van de relevante e-mails op voorhand kunnen worden geïdentificeerd. Het doel is uiteindelijk om het percentage van 30-40% richting de 100% te krijgen, dus dit is zeker nog niet bereikt. De huidige resultaten, gebaseerd op een relatief simpel model, laten echter wel zien dat er potentie zit in deze nieuwe aanpak, maar dat er verder onderzoek nodig is. Er zijn ook andere toepassingen mogelijk met de modellen uit het onderzoek naast het vinden van potentieel relevante e-mails. Je kunt hierbij denken aan het inzetten van de modellen om een dataset op andere manieren te verkleinen, bijvoorbeeld door middel van het uitfilteren van (interne) nieuwsbrieven. Vanuit het wiskundig statistisch perspectief ben ik zeker positief over de toekomst van een model dat al voorafgaand aan het reviewen een schifting maakt. Het masteronderzoek is uiteraard gelimiteerd in de hoeveelheid modellen en features die kunnen worden bekeken. Met meer onderzoek zouden de prestaties moeten verbeteren, waardoor de oplossing praktisch inzetbaar wordt. Net als de meeste machine learning-modellen, is het een kwestie van tijd voordat duidelijk wordt wat daadwerkelijk de beste combinatie van features en aannames is. Een eerste goede stap is hier in ieder geval mee gezet. Meer informatie Footnotes |
Categorie(n) | Branche > Accountantskantoren, Audit, dossierbeheer en data analyse, GRC en Assuring |
Bronvermelding | KPMG Nederland |
Automatisch op de hoogte blijven?
Schrijf u in voor onze gratis periodieke
nieuwsbrief.