In deze publicatie deelt het Nationaal Bureau voor Verbindingsbeveiliging (NBV) van de Algemene Inlichtingen- en Veiligheidsdienst (AIVD) manieren waarop Al-systemen aangevallen kunnen worden en hoe je je hiertegen kunt verdedigen. Er worden vijf verschillende aanvallen toegelicht die zich specifiek op Al-systemen richten, ook wel adversarial Al genoemd. En er worden vijf principes gegeven die je kunt gebruiken bij het veilig ontwikkelen van een Al-systeem.
Het NBV classificeert 5 verschillende categorieën van aanvallen, specifiek gericht op AI-systemen, te weten:
-
Poisoning aanvallen Met een poisoning aanval probeert een aanvaller aanpassingen te maken in je data,algoritme of model, zodat het Al-systeem wordt 'vergiftigd' en daardoor niet meer werkt zoals gewenst. Denk aan spamfilters die kwaadaardige website links onjuist als veilig classificeren. Door dit soort aanvallen neemt de betrouwbaarheid van de output van je Al-systeem af.
- Input (evasion) aanvallen
Een input aanval, ook wel een evasion aanval genoemd, is bedoeld om de input voor een Al-systeem dusdanig te bewerken dat het systeem niet of onjuist werkt. Doordat de veranderingen vaak minimaal zijn, en de aanval door het menselijk oog in sommige gevallen niet waar te nemen is, is de detectie van dit soort aanvallen zeer moeilijk. Denk aan verkeersborden die door het opplakken van een post-it een geheel andere betekenis krijgen, waardoor een zelfrijdende auto ongewenste handelingen uitvoert.
- Backdoor aanvallen
Door een backdoor (achterdeurtje) in een Al-model te bouwen, kan een externe partij als het ware een extra vertakking in de beslisboom toevoegen. Daarmee kan de aanvaller de uiteindelijke beslissing van het model bepalen voor specifieke invoer.Bijvoorbeeld: een aanvaller wil niet dat een model voor automatische kentekenherkenning de auto's van een criminele organisatie herkent. Hij weet toegang te krijgen tot het systeem waar dit model wordt ontwikkeld en bouwt een backdoor in, waarmee kentekens met een specifiek kenmerk niet herkend worden. Door dit kenmerk op de kentekens aan te brengen komen ze vervolgens elke keer door de scan heen.
- Model reverse engineering & inversion aanvallen
Bij het reverse engineeren van een Al-model probeert een aanvaller erachter te komen hoe jouw model werkt. Bij inversion aanvallen is het doel om de dataset te reconstrueren die gebruikt is om jouw model te trainen. Deze data kan namelijk gevoelige gegevens bevatten die mogelijk interessant zijn voor een aanvaller. De aanvallen kunnen verschillende doelen dienen: bijvoorbeeld het stelen van jouw intellectueel eigendom, of het onderzoeken van zwakheden in je model.
- lnference aanvallen
lnference aanvallen zijn gericht op het achterhalen van (potentieel geheime) trainingsdata. Modellen worden vaak getraind met grote hoeveelheden data die in veel gevallen ook persoonsgegevens of intellectueel eigendom bevatten. lnference aanvallen onderzoeken of een stuk informatie voortkwam in de trainingsdata op basis van de output van het model. Bijvoorbeeld, je wilt weten of de foto van een persoon gebruikt is om een model voor gezichtsherkenning te trainen.
Vijf principes voor het verdedigen van je Al-systemen:
- Houd je datakwaliteit op orde
De kwaliteit van je data is hoe dan ook van groot belang als je een AI-model of -systeem ontwikkelt. Met datakwaliteit bedoelen we onder andere: hoe gestructureerd is je data? Is bekend waar de data vandaan komt en kan je de kwaliteit controleren, weet je dat er niet mee gesjoemeld is? En ook: kan je elementen in je datasets ontdekken die een negatieve invloed hebben op de prestatie van je model?
- Zorg voor validatie van je data
Als je data gebruikt uit externe bronnen, weet je niet altijd hoe die data tot stand is gekomen. Daarom is het belangrijk om de data goed te kunnen valideren. Hoe is de dataset tot stand gekomen? Hoe zorg ik ervoor dat ik niet te afhankelijk ben van deze enkele bron?
-
Houd rekening met supply chain security Zodra een kant-en-klaar model wordt gedownload of voor jou door anderen wordt ingericht, is de kans op bijvoorbeeld een backdoor reëel. Het tegengaan van een backdoor is zeer lastig als je het model niet zelf kunt doorgronden. Als je het model zelf kunt bouwen of beoordelen wordt de introductie van een backdoor veel lastiger. Daar is veel kennis, kunde en tijd voor nodig.
Soms is het niet mogelijk om zelf een model te bouwen, omdat je simpelweg niet de juiste soort of hoeveelheid data hebt. Of omdat je de toegang tot de rekenkracht mist die nodig is. In dat geval kijk je naar de garanties die er zijn om de leverancier te vertrouwen. Dat wordt ook wel 'supply chain security' genoemd: zorgen dat je grip hebt op je toeleveranciers en de kwaliteit van de producten en diensten die zij leveren.
- Maak je model robuust tegen aanvallen
De robuustheid van je Al-model is de mate waarin het model goed kan functioneren bij afwijkende input, veranderingen in de data of pogingen tot misbruik. Alle voorgaande principes uit deze folder helpen je model al meer robuust te maken. Dit principe voegt daar aan toe: zorg dat je je model traint tegen mogelijke aanvallen.
- Zorg dat je model controleerbaar(auditable) is
Een Al-model geeft voorspellingen,maar vaak is het onduidelijk hoe deze voorspelling tot stand is gekomen. Zelfs als het model goed "werkt", kun je moeilijk uitleggen waarom. Herkent jouw beeldherkenningsmodel echt de paarden op afbeeldingen, of wordt het model om de tuin geleid door een onopvallend watermerk? Wat maakt dat het model het ene type malware wel herkent, en het andere niet?
Naar download complete document "AI-systemen: ontwikkel ze veilig". |