De gevaren van big data

business_trends'Big data staat voor geweldige mogelijkheden maar tegelijkertijd ook voor niet te onderschatten gevaren. Deze ontwikkelingen tegenhouden echter is een futiele strijd, analoog aan het tegenhouden van elektriciteit in de 19e eeuw. Maar er voor zorgen dat de gevaren zoveel mogelijk worden onderkend en ondervangen is wel degelijk mogelijk en verdient onze volle aandacht. Dit stelt prof. dr. Max Welling, hoogleraar Machine Learning in zijn oratie Van veel data, snelle computers en complexe modellen tot zelflerende machines. De rede is uitgesproken bij de aanvaarding van het ambt van hoogleraar Machine Learning aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica van de Universiteit van Amsterdam.

In zijn oratie bespreekt Welling een aantal maatschappelijk relevante aspecten van big data, zoals massive open online courses (MOOC’s), citizen science en privacy. Op het snijvlak van explosief groeiende computerkracht en datavolume houden machine learning-onderzoekers zich momenteel bezig met enorme voorspellingsmodellen. De door hen ontwikkelde zogenoemde deep learning-algoritmen hebben al spectaculaire successen geboekt in zowel de academische wereld als in het bedrijfsleven, laat Max Welling zien in zijn oratie.

Grote beloften

Apple’s Siri op onze iPhone begrijpt wat we zeggen, Amazon begrijpt wat voor boeken we willen lezen, navigatiesystemen leiden ons feilloos naar onze bestemming enzovoort. Over nog veel geavanceerdere technologie kan men al lezen op het internet: Star Trek’s universal translator wordt werkelijkheid in een nieuw systeem van Microsoft dat gesproken zinnen kan begrijpen, vertalen en dan weer in een andere taal uitspreken; IBM’s Watson verslaat de beste menselijke tegenstander in het spel Jeopardy waar taal op een heel hoog niveau begrepen moet worden, zelfsturende auto’s rijden al rond in Californië en Nevada enzovoort. Deze zichtbare vooruitgang inspireert een grote groep jong talent met een rijke fantasie voor wat er allemaal nog meer mogelijk is. Een van die talenten is ontegenzeggelijk de ceo van Facebook, Mark Zuckerberg. Tijdens zijn bezoek aan de grootste conferentie in machine learning (NIPS) droeg hij zijn visie uit over het ontwikkelen van een persoonlijke theory of mind voor elke Facebookgebruiker. Gezien de enorme hoeveelheden data en rekenkracht die Facebook tot zijn beschikking heeft, is dit op de lange termijn volgens Welling misschien niet eens zo’n heel onrealistische idee. Maar willen we dit wel? Dankzij Edward Snowden weten we nu dat dit soort informatie gemakkelijk in handen van overheden kan vallen. Naast grote beloften zijn er dus ook grote gevaren.

Hoe kunnen wij onze privacy waarborgen in een tijd dat computermodellen onze innerlijke drijfveren misschien wel beter doorgronden dan wijzelf? Hoe kunnen wij voorkomen dat een zeer gedetailleerde prognose van onze gezondheid onze verzekeringspolis gaat beïnvloeden? Hoe kunnen we voorkomen dat we preventief worden gearresteerd als we een genetische aanleg voor terroristische activiteiten blijken te hebben? Dit zijn aspecten van machine learning en big data waar we de komende tijd ons hoofd over moeten breken. We moeten een balans vinden tussen wat kan en wat wenselijk is. Welling heeft er een groot vertrouwen in dat dat lukt. Hij voorziet een gouden toekomst voor zijn vakgebied: machine learning.

Gevoed door een explosieve groei van computerkracht en big data heeft het vakgebied machine learning volgens Welling recentelijk een aantal spectaculaire successen geboekt. Welling beargumenteert dat de complexiteit van de gebruikte computermodellen zelf ook explosief groeit met als gevolg dat over een aantal decennia computermodellen evenveel capaciteit hebben als het menselijke brein. Ten behoeve van deze modellen worden nieuwe deep learning-algoritmen ontwikkeld die ook bij grote bedrijven als Google, Facebook, Apple, Yahoo en Microsoft ten grondslag liggen aan vele toepassingen.

Goudmijn

Big data is de nieuwe goudmijn. Data mining is de activiteit die zijn waarde ontsluit. Zoals olie de industriële revolutie aandreef, zo is big data de nieuwe grondstof waarop de moderne economie draait. Is big data een big hype of stevenen we echt af op een maatschappij die gedomineerd wordt door data? En wat betekent die dataficatie van onze samenleving nu eigenlijk voor ons?, zo vraagt Welling zich af. Eerst zet hij een paar feiten op een rijtje. De totale hoeveelheid data in de wereld wordt op dit moment geschat op ongeveer 4 zettabyte. Die data-tsunami komt er dus aan. Net zoals de snelheid waarmee computers kunnen rekenen iedere twee jaar verdubbelt (Moore’s wet), zo verdubbelt ook de hoeveel data in iets minder dan twee jaar. De data-berg is zo groot dat het onmogelijk is om deze door mensen te laten inspecteren. We moeten dit dus aan slimme algoritmen overlaten. Maar hoe ontwerp je een slim algoritme? Dit is het domein van machine learning (vrij vertaald: kunstmatig leren), het onderwerp van zijn leerstoel. Naast sociologische oorzaken zijn er volgens Welling drie technologische redenen te bedenken waarom big data nu zo in de aandacht staat:

  1. de data-explosie;
  2. de enorme computerkracht;
  3. sterk verbeterde algoritmen om deze data te analyseren.

Digitale advocaten

Het samenkomen van deze drie factoren gaat het eindelijk mogelijk maken om de hooggespannen verwachtingen over kunstmatige intelligentie uit de jaren zestig waar te maken. Misschien niet precies zoals we ons hadden voorgesteld met op mensen lijkende robots, maar op een manier die misschien nog wel veel verstrekkender is. Met digitale artsen die beter patiënten kunnen behandelen dan menselijke artsen. Met digitale advocaten die beter in staat zijn om u in een strafzaak te verdediging dan menselijk advocaten, met zelfrijdende auto’s die geen ongelukken meer maken, met een digitale politie die heel efficiënt misdaad kan opsporen of kan voorkomen en ga zo maar door.

Dataficatie

Om een analogie van Vance Packard te gebruiken: een mes in de handen van een chirurg redt levens, maar datzelfde mes in de handen van een misdadiger neemt levens. Het zou volgens Welling dan ook naïef zijn om de gevaren van de dataficatie van onze samenleving te ontkennen: privacyschendingen, misbruik van persoonsgegevens, discriminatie, het trekken van verkeerde conclusies, de ontmenselijking van de zorg, de verdringing van arbeidsplaatsen door automatische systemen en ga zo maar door. Big data staat dus voor geweldige mogelijkheden maar tegelijkertijd ook voor niet te onderschatten gevaren.

Voorspellen

In Los Angeles doet de politie aan predictive policing, ofwel het voorspellen waar de volgende golf aan criminaliteit zal plaatsvinden en deze voorkomen door er meer politieagenten te laten surveilleren. Dit blijkt mogelijk omdat er structuur zit in de manier waarop golven criminaliteit zich door een stad heen bewegen, niet veel anders dan de geografische verdeling van naschokken die volgen op een aardbeving. In Los Angeles heeft dit geleid tot een vermindering van 26% aan inbraken in het gebied waar deze techniek is toegepast. Recentelijk heeft ook de Nederlandse politie inbraakinformatie vrijgegeven via internet. Deze voorbeelden illustreren volgens Welling dat big data de potentie heeft om een eerlijkere, gemakkelijkere, veiligere en gezondere samenleving te creëren. Maar zo’n krachtige technologie kan volgens hem niet zonder gevaren zijn.

Doemscenario’s

'Bij het lezen van de voorbeelden bekruipt u misschien al een unheimisch gevoel. Op welke manieren kan big data tegen ons gebruikt worden? Gaat de dataficatie van onze samenleving niet veel te ver? Leidt big data niet tot George Orwell’s big brother?', zo vraagt Welling zich af, die vervolgens een aantal doemscenario’s de revue laat passeren.

Stel een verzekeringsmaatschappij weet de toekomstige centrale patiëntendatabank te hacken en krijgt toegang tot alle medische gegevens van alle Nederlanders. Daaruit kan zij een kans berekenen dat iemand binnen tien jaar ernstig ziek wordt. Het zou dan heel verleidelijk zijn om deze mensen een verzekering te weigeren.

Of neem het voorbeeld van predictive policing. Stel dat de politie, gebruikmakende van sociale achtergrond, genetische informatie, crimineel verleden enzovoorts op persoonlijk niveau kan voorspellen wat de kans is dat iemand in de toekomst een misdaad begaat. Mag de politie met die informatie iemand arresteren voordat hij/zij die misdaad begaat? Dit scenario is volgens Welling mooi verbeeld in de film Minority Report waar een politieafdeling wordt beschreven die zich bezig houdt met pre-crimes: misdaden die met grote zekerheid in de toekomst worden gepleegd. 'Ik denk dat de meesten onder ons het onwenselijk vinden om verdachten van toekomstige misdaden maar vast te arresteren. We zien dus dat privacyschendingen en het misbruik van gevoelige informatie op de loer liggen.'

Gevaren

Welling signaleert ook nog twee minder genoemde gevaren. Het eerste gevaar is dat we verkeerde conclusies gaan trekken uit data die gemakkelijk op internet te oogsten zijn. Stel we willen weten hoeveel mensen zich zorgen maken over privacyschendingen van de binnenlandse veiligheidsdienst. Als we op internet zoeken vinden we heel veel bezorgde tweets, blogs, chats, enzovoort. De mensen die zich geen zorgen maken laten zich over het algemeen niet horen. Dit noemen we selectie bias, omdat de steekproef die we nemen niet representatief is voor de hele bevolking. In dit geval vergaren we vooral informatie van mensen die zich drukmaken over het probleem en zich ook van dit soort moderne media bedienen. We moeten volgens Welling dus met het trekken van conclusies heel erg oppassen om niet ten prooi te vallen aan deze selectie bias.

Misverstand

Ten slotte ziet Welling een reëel gevaar dat de kunstmatige intelligentie op den duur heel veel banen overbodig gaat maken. Zelfrijdende auto’s zouden zomaar alle vrachtwagenchauffeurs hun baan kunnen ontnemen. 'Het standaardantwoord is altijd dat er weer nieuwe banen bijkomen, maar ik ben er niet zeker van dat dit in de toekomst zo zal blijven. Misschien moeten we er rekening mee houden dat we allemaal wat meer vrije tijd gaan krijgen, en er goed over nadenken hoe we onze samenleving daar naar gaan inrichten.' Welling wil nog één misverstand uit de weg ruimen. Vaak hoor je dat met big data men alleen nog oog zou hebben voor voorspellingen (wat) en niet meer voor de onderliggende oorzaken (waarom). Dit wordt ook wel het correlatie (wat) versus causatie (waarom) probleem genoemd. Zoeken naar correlaties in plaats van oorzaken kan misschien een verleiding zijn, maar heeft niets met big data te maken. Meer data leidt volgens Welling altijd tot betere inzichten mits men de juiste vragen stelt. Met dezelfde data kan men proberen te voorspellen welke bevolkingsgroepen een grotere kans hebben om in de misdaad terecht te komen, maar kan men ook proberen te achterhalen waarom deze bevolkingsgroepen in de misdaad terechtkomen (bijvoorbeeld door een grotere werkeloosheid). De gulden regel is: meer data is altijd beter dan minder data mits je de goede vragen stelt en de goede algoritmen gebruikt.

Conclusie

Zoals altijd kunnen krachtige technologieën ook misbruikt worden. We moeten volgens Max Welling daarvoor oppassen en onze maatschappij via wetgeving zo inrichten dat die negatieve aspecten worden beteugeld en ondervangen. We mogen simpelweg niet toestaan dat verzekeringsmaatschappijen discrimineren op medische profielen. We hoeven ook niet toe te laten dat de politie preventief gaat arresteren. Door de snelle ontwikkelingen lopen we hier wellicht wat achter op de feiten, dus dit verdient onze volle aandacht.

BTG: Verbinding, verbreding en verdieping

Branchevereniging ICT en Telecommunicatie Grootgebruikers (BTG) behartigt de belangen van Nederlandse bedrijven en instellingen door kennis over te dragen en ervaringen uit te wisselen o.a. tijdens events

BTG in beeld en geluid

Expertsessies

  • Geen evenementen
  • Magazine

    BTG in Business - Voorjaar 2022
    Lees de laatste editie

    Meld je aan voor onze nieuwsbrief!

    Op de hoogte blijven van evenementen en het laatste nieuws? Schrijf je dan nu in voor onze nieuwsbrief.
    • Dit veld is bedoeld voor validatiedoeleinden en moet niet worden gewijzigd.