Softwarepakketten.nl
Surepay IBAN-Naam check
EXACT Software
VISMA E-accounting
E-boekhouden

Bijdrage van Bloggers (blogs)

Slimmer onderzoek naar relevante e-mails in mailboxen met Artificial Intelligence

Plaatsingsdatum 13-06-2019
Berichtdatum 3 juni 2019

Thom Eijken en Ian Dashorst KPMG Nederland.

Het zoeken naar de spreekwoordelijke speld in een hooiberg. Dat is wat het identificeren van relevante informatie in mailboxen van mogelijke betrokkenen tijdens een (forensisch) digitaal onderzoek eigenlijk is. Het is een tijdsintensief proces, waar op verschillende vlakken verbetering en efficiëntie te behalen is. Met een achtergrond in toegepaste wiskunde kijk ik voor mijn masteronderzoek naar een nieuwe aanpak om e-mails voorafgaand aan het reviewproces te schiften om zodoende de arbeidsintensieve handmatige review te vereenvoudigen. Wiskunde, en specifiek statistiek, heb ik al in veel situaties als oplossing gezien voor problemen en zo heb ik dit ook in dit onderzoek toegepast. Het doel van dit masteronderzoek is om met Bayesiaanse statistiek een model op te stellen dat een dergelijke schifting kan maken. Tijdens het e-Discovery symposium, georganiseerd door het lectoraat Digital Forensics en E-Discovery van de Hogeschool Leiden, zijn de eerste onderzoeksresultaten gepresenteerd.

Machine Learning voor e-Discovery
Modellen gebaseerd op machine learning technieken hebben zich de afgelopen jaren keer op keer bewezen door goede prestaties te leveren in verschillende classificatieproblemen[1]. Ondanks dat in het verleden een digitaal onderzoek nog veelal handmatig werd bekeken, heeft het gebruik van zelflerende modellen zo ook zijn weg gevonden in e-Discovery.

Een veelgebruikte machine learning-techniek om het review proces te versnellen is Technology Assisted Review (TAR, ook wel bekend als predictive coding)[2]. TAR omvat een model dat wordt getraind op basis van documenten die betrekking hebben op het onderzoek en waarvan reeds bepaald is dat ze relevant zijn. De training wordt dus gedaan op basis van de classificaties die gegeven worden tijdens het handmatige review proces. Dit handmatige reviewproces wordt veelal gedaan door een senior onderzoeker. Het TAR model geeft vervolgens continu nieuwe aanbevelingen van potentieel relevante e-mails. Dit geeft al een veel tijdwinst in het reviewproces, aangezien de kans op het vinden van de relevante e-mails wordt vergroot door de e-mails op getrainde relevantie te sorteren. Eén van de nadelen van TAR is echter dat er een eerste handmatige review nodig is om tot aanbevelingen te komen. Voor de eerste handmatige review zijn ongeveer 200 gereviewde e-mails nodig voordat het model de eerste relevante documenten weergeeft. Om tot een betrouwbaar resultaat te komen, is nog een forse hoeveelheid additionele handmatige review nodig. Met het masteronderzoek probeer ik dit nadeel op te lossen.

Classificatie een stap eerder
Het onderzoek richt zich op het maken van een model dat getraind wordt op historische data. De hypothese van het onderzoek is dat relevante fraude gerelateerde e-mails op eenzelfde manier zijn te onderscheiden van normaal e-mail verkeer zoals dat voor spam e-mails gedaan wordt. Voor het onderzoek worden daarmee met name modellen en eigenschappen van e-mails gebruikt die al succesvol in de spam classificatie zijn toegepast. Met een model getraind op historische data is het mogelijk om, al voorafgaand aan de handmatige review, een indicatieve classificatie mee te geven (net als dat spam al rechtstreeks in de map 'ongewenst' wordt geplaatst). Hierdoor kan het eerder genoemde nadeel van TAR worden opgelost.

De resultaten, gebaseerd op een dataset uit de praktijk, laten zien dat momenteel 30-40% van de relevante mails met deze aanpak vooraf kunnen worden geclassificeerd als relevant. De gebruikte dataset relateert tot een recent digitaal onderzoek met een totale omvang van 68.486 unieke e-mails, waarvan er 1.595 waren onderzocht en dus konden worden gebruikt voor het trainen en testen van het model. Met een schifting vooraf zou dus 30-40% van de relevante e-mails op voorhand kunnen worden geïdentificeerd. Het doel is uiteindelijk om het percentage van 30-40% richting de 100% te krijgen, dus dit is zeker nog niet bereikt. De huidige resultaten, gebaseerd op een relatief simpel model, laten echter wel zien dat er potentie zit in deze nieuwe aanpak, maar dat er verder onderzoek nodig is.

Er zijn ook andere toepassingen mogelijk met de modellen uit het onderzoek naast het vinden van potentieel relevante e-mails. Je kunt hierbij denken aan het inzetten van de modellen om een dataset op andere manieren te verkleinen, bijvoorbeeld door middel van het uitfilteren van (interne) nieuwsbrieven.

Vanuit het wiskundig statistisch perspectief ben ik zeker positief over de toekomst van een model dat al voorafgaand aan het reviewen een schifting maakt. Het masteronderzoek is uiteraard gelimiteerd in de hoeveelheid modellen en features die kunnen worden bekeken. Met meer onderzoek zouden de prestaties moeten verbeteren, waardoor de oplossing praktisch inzetbaar wordt. Net als de meeste machine learning-modellen, is het een kwestie van tijd voordat duidelijk wordt wat daadwerkelijk de beste combinatie van features en aannames is. Een eerste goede stap is hier in ieder geval mee gezet.

Meer informatie
De volledige presentatie gegeven op het e-Discovery symposium is te vinden op de website van het lectoraat Digital Forensics en E-Discovery van de Hogeschool Leiden [3].

Footnotes
[1] Pattern Recognition and Machine Learning, Christopher M. Bishop (2006)
[2] Technology Assisted Review
[3] E-discovery

Bron: naar bericht op website KPMG...
 

Categorie(n) Branche > Accountantskantoren, Audit, dossierbeheer en data analyse, GRC en Assuring
Bronvermelding KPMG Nederland

Automatisch op de hoogte blijven?
Schrijf u in voor onze gratis periodieke nieuwsbrief.

Terug

 

Kleisteen

Informer Software


KING Software


Timewriter


Onerzoeksbureau GBNED