Negen historische AI-missers

insights Data & Ai

Gepubliceerd op 2023-07-05 door William Visterin

Inzichten uit data en artificial intelligence-algoritmen kunnen van onschatbare waarde zijn, maar fouten kunnen je reputatie, omzet of zelfs levens kosten. We zetten negen spraakmakende artificial intelligence- (AI) en analyticsblunders op een rijtje.

Dit artikel verscheen oorspronkelijk in SAI Update 10, het digitaal magazine van SAI. Leden van SAI kunnen het magazine integraal lezen.

We doen dit naar aanleiding van het boek van David Martens, expert in AI en ethiek. Hij kwam op een SAI-webinar zijn boek Data Science Ethics: Concepts, Techniques and Cautionary Tales voorstellen. “Als we lezen over AI in de media gaat het meestal over de ethische kant ervan. Maar in vergelijking bestaan er weinig boeken over. Ofwel zijn ze supertechnisch ofwel eerder verhalend. Ik heb met mijn eigen boek een gulden middenweg gezocht”, vertelt David Martens. Zijn werk is naar eigen zeggen bestemd voor datawetenschappers, maar ook voor management- en IT-profielen die werken in datagedreven bedrijven.

Naar aanleiding van het boek en het belang van ethiek in AI overlopen we enkele historische missers in data analytics en AI, waarvan sommige ook aan bod komen in het webinar of boek van David Martens. Vaak gaat het om voorbeelden van grote (Amerikaanse) techbedrijven. “Grote techspelers lopen voor qua innovatie en nemen ook in AI het voortouw. Zij stuiten dan ook op problemen die voorheen niet of minder bekend waren. Omdat zij groot zijn, lopen zij meer in de kijker. Maar hun verhalen illustreren ook wat er allemaal mis kan gaan.”

1. Target-analyses voorspelden zwangerschap

Een instant klassieker. Tien jaar geleden al toonde een analytisch project van retailgigant Target aan hoeveel bedrijven over klanten te weten kunnen komen uit hun (aankoop)data. De marketingafdeling van Target wilde zwangere mensen identificeren. De zwangerschap is één van de perioden in het leven waarin mensen het meest geneigd zijn om hun koopgedrag radicaal te veranderen. Als Target de klanten in die periode zou kunnen bereiken, zou het bijvoorbeeld nieuw gedrag bij die klanten kunnen activeren, zoals rond de aankoop van kleding of andere goederen. Deze analyse is beroemd geworden omdat de detailhandelaar onbedoeld aan de familie van een tienermeisje onthulde dat ze zwanger was.

Net als alle andere grote retailers verzamelde Target gegevens over zijn klanten via zaken zoals kredietaankopen of klantengetrouwheidskaarten. Het mengde die data met demografische gegevens en data van derden die het aankocht. Door al die gegevens samen te voegen, kon het analyseteam van Target vaststellen dat er ongeveer 25 producten waren die door Target werden verkocht en die samen konden worden geanalyseerd om een ‘zwangerschapsscore’ te genereren. De marketingafdeling kon vervolgens klanten met de hoogste score benaderen met coupons en marketingboodschappen.

Dat de voorspelling best griezelig correct kon aanvoelen, bleek uit het feit dat de communicatie dus bij ouders terechtkwam die niet van de zwangerschap van de betreffende (tiener)klant op de hoogte waren. Volgens de New York Times heeft Target niet afgezien van zijn gerichte marketing, maar is het wel begonnen met het mengen van advertenties voor dingen waarvan ze wisten dat zwangere vrouwen ze niet zouden kopen, zoals advertenties voor grasmaaiers naast advertenties voor luiers. Kwestie van de advertentiemix voor de klant te laten aanvoelen als willekeurig.

2. Microsoft trainde chatbot voor racistische tweets

In maart 2016 leerde Microsoft dat het gebruik van Twitter-interacties als trainingsgegevens voor algoritmes ontluisterende resultaten kan hebben. Microsoft bracht namelijk de AI-chatbot Tay uit op het socialemediaplatform. Het bedrijf beschreef het als een experiment in ‘conversational understanding’. Het idee was dat de chatbot de persoonlijkheid van een tienermeisje zou aannemen en via Twitter met individuen zou communiceren met behulp van een combinatie van machine learning en natuurlijke taalverwerking. Microsoft gebruikte geanonimiseerde openbare gegevens en naar verluidt ook materiaal dat vooraf was geschreven door comedians, en liet het vervolgens los voor zijn interacties op het sociale netwerk.

In minder dan een etmaal plaatste de chatbot meer dan 95.000 tweets en die werden al snel openlijk racistisch, vrouwenhatend en antisemitisch. Microsoft schortte de dienst snel op voor aanpassingen en trok er uiteindelijk de stekker uit. “Het spijt ons ten zeerste voor de onbedoelde beledigende en kwetsende tweets van Tay, die niet representeren wie we zijn of waar we voor staan, noch hoe we Tay hebben ontworpen”, schreef Peter Lee, corporate vice president, Microsoft Research & Incubations, in een post op de officiële Microsoft-blog naar aanleiding van het incident.

Waar Microsoft geen rekening mee had gehouden, was dat een groep Twitter-gebruikers onmiddellijk zou beginnen met het tweeten van racistische en vrouwenhatende opmerkingen naar Tay. De bot leerde snel van dat materiaal en verwerkte dat in zijn eigen tweets. Met alle gevolgen van dien.

3. Datingsite OK Cupid faket een goede match

OK Cupid is een grote datingsite in de Verenigde Staten die zich baseert op datawetenschap om te voorspellen welke twee mensen een goede (romantische) match zijn. Mensen die door het model als goede match werden bestempeld, gingen met elkaar in conversatie en bleken vaak ook effectief een goede match te zijn. Maar de (wetenschappelijke) vraag die ze bij OK Cupid stelden was: komt dat omdat onze voorspelling juist is, of komt dat omdat we simpelweg tegen twee mensen vertellen dat ze een goede match zijn?”
Om dat te achterhalen voerde OK Cupid een A/B-testing uit. Alle mensen die van het model een ‘slechte match’-indicatie kregen, werden in twee groepen ingedeeld: A en B. Aan groep A werd verteld dat ze een slechte match waren, terwijl aan de B-groep het omgekeerde signaal werd gegeven: een goede match dus. De vraag van het experiment was: gaan de mensen in groep B meer met elkaar beginnen te praten dan die in groep A? Dat bleek inderdaad zo te zijn.

De wetenschappelijke conclusie was: gewoon vertellen dat ze een goede match zijn heeft een grote impact op het contact. Maar de gebruikers konden het experiment niet pruimen. “Jullie spelen met mijn romantische toekomst door te stellen dat ik met die ene persoon een goede match heb, terwijl jullie perfect wisten dat dit niet het geval was”, was de teneur. De CEO van OK Cupid vond er niets beter op dan te stellen dat dit experiment de manier is hoe het internet werkt. “Want daar zijn jullie dagelijks het voorwerp van dit soort experimenten.” Maar ook al is dat zo, dan nog hebben die andere experimenten meestal niet zo’n grote impact op het (romantisch) geluk van mensen. “Als je tegen je gebruikers liegt over zulk soort testen, dan pleeg je gewoon fraude”, reageerde een columnist van de New York Post nadien over dit voorval.

4. Amazon AI-rekruteringstool raadde alleen mannen aan

Net als veel grote bedrijven is Amazon vragende partij voor tools die kunnen helpen bij het screenen om bij sollicitaties de beste kandidaten te vinden. In 2014 begon Amazon met AI-aangedreven wervingssoftware om precies dat te kunnen bewerkstelligen. Er was slechts één probleem: het systeem had een enorme voorkeur voor mannelijke kandidaten. Amazons systeem gaf kandidaten beoordelingen van één tot vijf. Maar de machine learning-modellen in het systeem waren getraind op cv’s die in de voorbije tien jaar bij Amazon terecht waren gekomen en de meeste daarvan waren van mannen. Door die trainingsgegevens begon het systeem zinnen in het cv te bestraffen die het woord ‘vrouwen’ bevatten en degradeerde het zelfs kandidaten van universiteiten waar voornamelijk vrouwen studeerden. In 2018 bracht Reuters het nieuws dat Amazon het project had geschrapt. Het bedrijf probeerde de tool te bewerken om hem neutraal te maken, maar besloot uiteindelijk dat het niet kon garanderen dat het geen andere discriminerende elementen zou aanleren en aanwenden om kandidaten te selecteren. Waardoor het project stopte.

5. La Liga schakelde je microfoon in om fraude te detecteren

De Spaanse officiële voetbalinstantie La Liga had in Spanje een groot probleem rond piraterij. Er werden namelijk heel wat voetbalmatchen uitgezonden in cafés en restaurants die daarvoor nooit een licentie betaalden aan La Liga. Dat bracht de bonzen bij La Liga op het idee om hun app te gebruiken om fraude op te sporen. Iedere minuut werd de microfoon van de app opgezet en daardoor konden ze in de achtergrond horen of een La Liga-wedstrijd aan de gang was. Als dat het geval was, dan werd de locatie doorgestuurd. Klein probleem was dat de gebruikers van de La Liga-app hier helemaal niet van op de hoogte waren. Ook al gebruikte La Liga het argument dat de opnames geanonimiseerd zouden worden, wat ook gebeurde, toch kreeg La Liga hiervoor een behoorlijke privacyboete.

6. Datawetenschappers AOL boden ‘anonieme’ data aan

Ook de anonieme data zelf veroorzaken vaak problemen. Om de banden met de academische wereld aan te halen, besloot het team met datawetenschappers van AOL in 2006 alle 20 miljoen keywords te delen: wat zoeken de mensen online? Zo werd de zoekgeschiedenis van 650.000 gebruikers prijsgegeven. Ook al waren namen en IP-adressen verwijderd, het probleem was dat de trefwoorden in realiteit niet anoniem waren. Veel valt terug te halen door de context en de nabijheid van het zoekgedrag. Veel mensen zoeken bijvoorbeeld naar zichzelf en naar collega’s.

Deze privacykwestie dateert van ruim vijftien jaar geleden, maar blijkt vandaag nog altijd relevant. “Een van de vaak voorkomende problemen bij data- en AI-projecten is dat de data in realiteit niet helemaal anoniem zijn. Vaak krijg ik bijvoorbeeld papers waarin beweerd wordt dat de data geanonimiseerd zijn, maar waar dat uiteindelijk helemaal niet het geval blijkt te zijn”, stelt David Martens.

7. Britse AI-algoritmen identificeren alles, behalve COVID-19

Ook de COVID-19-pandemie zette een en ander op scherp in de wereld van data en AI. Zo hebben sinds het begin van de pandemie tal van organisaties getracht machine learning-algoritmen toe te passen om ziekenhuizen te helpen sneller een diagnose te stellen of patiënten te triëren of verdelen. Maar volgens het Turing Institute van het Verenigd Koninkrijk, een nationaal centrum voor data science en AI, maakten die voorspellende tools doorgaans weinig tot geen verschil. Het gebruik van verkeerd gelabelde gegevens of gegevens uit onbekende bronnen was een veel voorkomende reden hiervoor.

Derek Driggs, een onderzoeker op het gebied van machine learning aan de Universiteit van Cambridge, heeft samen met zijn collega's een paper gepubliceerd in Nature Machine Intelligence waarin het gebruik van deep learning-modellen voor het diagnosticeren van het coronavirus werd onderzocht. Zo ontdekte Driggs dat het model gebrekkig was. De reden? Het was getraind op een dataset die scans bevatte van patiënten die lagen versus patiënten die rechtop stonden. De patiënten die lagen hadden veel meer kans om ernstig ziek te zijn. Met als gevolg dat het algoritme stelselmatig leerde om het COVID-risico te identificeren op basis van de positie van de persoon op de scan.

8. Zillow gebruikte onaangepast AI-algoritme en verloor miljoenen dollars

In november 2021 vertelde de online vastgoedmarktplaats Zillow dat het afscheid ging nemen van een kwart van het personeelsbestand van het bedrijf, ongeveer 2.000 werknemers. Ook zou het zijn Zillow Offers-activiteiten afbouwen. Die acties waren het rechtstreekse gevolg van de foutenmarge in het machine learning-algoritme dat Zillow gebruikte om huizenprijzen te voorspellen.

Zillow Offers was namelijk een programma waarmee het bedrijf stelselmatig geld bood op woningen op basis van een zogenaamde Zestimate van de woningwaarde, afgeleid van een machine learning-algoritme. Het idee was om de huizen te renoveren en ze snel te verkopen. Maar Zillow zei dat het algoritme ertoe had geleid dat het onbedoeld huizen had gekocht tegen te hoge prijzen, wat resulteerde in een afschrijving van ruim 300 miljoen dollar in het derde kwartaal van 2021. De uitzonderlijke situatie door de COVID-19-pandemie en een tekort aan arbeidskrachten voor huisrenovatie droegen bij aan de nauwkeurigheidsproblemen van het algoritme. CNN meldde dat Zillow 27.000 huizen kocht via Zillow Offers sinds de lancering in april 2018, maar er tot eind september 2021 daarvan slechts 17.000 had verkocht.

9. Verenigd Koninkrijk verliest duizenden COVID-gevallen door datalimiet in spreadsheet

In oktober 2020 onthulde Public Health England (PHE), de Britse overheidsinstantie die verantwoordelijk is voor het tellen van nieuwe COVID-19-infecties, dat bijna 16.000 gevallen van het coronavirus niet gerapporteerd werden tussen 25 september en 2 oktober. De boosdoener? Beperkte gegevens in Microsoft Excel.

PHE gebruikt een geautomatiseerd proces om de positieve laboratoriumresultaten als CSV-bestand over te brengen naar Excel-sjablonen die worden gebruikt voor rapportage-dashboards en om contacten te traceren. Helaas kunnen Excel-spreadsheets maximaal 1.048.576 rijen en 16.384 kolommen per werkblad bevatten. Bovendien vermeldde PHE de gevallen in kolommen in plaats van in rijen. Toen het aantal gevallen de limiet van 16.384 kolommen overschreed, smeet Excel de overblijvende 15.841 records gewoon weg.

De ‘storing’ heeft niet verhinderd dat geteste personen hun resultaten ontvingen, maar het heeft wel de tracering van contacten bemoeilijkt, waardoor het voor de Britse National Health Service (NHS) moeilijker werd om personen die in nauw contact stonden met besmette patiënten te identificeren en in te lichten. PHE heeft naar eigen zeggen een snelle oplossing ingevoerd waarbij grote bestanden werden gesplitst. Het heeft ook een volledige end-to-end review van alle systemen uitgevoerd om soortgelijke incidenten in de toekomst te voorkomen. Of hoe dus ook banale redenen, zoals kolomlimieten in Excel, voorspellingen of data-analyses kunnen bemoeilijken.

David Martens, Data Science Ethics: Concepts, Techniques and Cautionary Tales. Oxford University Press. www.dsethics.com

SAI-leden kunnen hier het webinar van prof. dr. David Martens (UAntwerpen) naar aanleiding van zijn boek herbekijken.