Groeipijnen van AI

De groeipijnen van AI hebben betrekking op twee zaken: de hype rondom statistische modellen die steeds beter worden in het imiteren of simuleren van menselijk taalgebruik en de mega investeringen in cloud servercapaciteit om de aanmaak van die modellen mogelijk te maken. De hype biedt hoop op een lui leven, waarin het opzoeken en samenvatten van informatie en zelfs het uitschrijven van nieuwe tekst kan worden uitbesteed aan een model, dat voor ons lijkt te denken zodat we het niet zelf hoeven te doen. Maar de output moet worden gecheckt en als het model onzin uitkraamt, willen we tijdig afhaken en alsnog kunnen vinden wat waar, juist, gepast, effectief of efficiënt is. De investeringen in mega servercapaciteit leiden intussen tot een geopolitieke stoelendans en zetten de energietransitie op losse schroeven, inclusief overhaaste pogingen om met privaat geld kerncentrales te bouwen voor eigen (big tech) gebruik.  Het is zowel grappig als zorgelijk dat de verdienmodellen van deze generatieve modellen vooralsnog geen betrekking hebben op de modellen zelf maar op de verkoop van cloud servercapaciteit.

Als we ons verlaten op modellen die per definitie getraind worden op gedragsdata uit het verleden, zullen die modellen ons een eindeloze herhaling van zetten voorspellen, voorschrijven of voordoen (ze kunnen immers niet anders dan nadoen). De training data van generatieve AI-modellen bestaat uit de neerslag van ons taalgedrag (tekst) en/of ons beeldgedrag (foto’s of andere images). Hoeveel van die historische data zo’n model ook heeft verwerkt, het kan niet worden getraind op toekomstige data (wie was het die opmerkte dat voorspellen lastig is, vooral als het om de toekomst gaat?).

De groeipijnen van AI hangen dus samen met het verschil tussen voorspellen en voorzien. Voorspellen is een mechanisch en stochastisch spelletje, dat het verleden over de toekomst legt, wat heel nuttig kan zijn maar geen zekerheid biedt. Voorzien daarentegen is een waagstuk dat ervaring, berekening en verbeeldingskracht samenbrengt met prudentie en veerkracht; voorzien biedt ook geen zekerheid maar pretendeert dat ook niet en combineert het doortrekken van lijnen uit het verleden met het zoeken naar nieuwe patronen in het verleden, door er vanuit een andere – voorziene – toekomst naar te kijken. Voorzien is wendbaarder en veerkrachtiger dan voorspellen, dat stugger en breekbaar blijkt omdat voorspelmachines niet kunnen zien wat ze niet zien.

Hier is een voorbeeld uit de blog van Narayanan en Kapoor,[1] twee toonaangevende maar nuchtere computerwetenschappers uit Princeton. Zij leggen uit waarom een algoritme om levertransplantaties toe te delen discrimineert op leeftijd. Jonge patiënten blijken van het algoritme geen kans te krijgen omdat ze minder baat zouden hebben van een transplantatie dan ouderen. Dat is contra-intuïtief maar het model is getest en zou het beter ‘weten’ en dus maar beter blind gevolgd worden (het is een type model dat niet uitgelegd kan worden). De discriminatie wordt ‘veroorzaakt’ doordat bij jong en oud alleen wordt gekeken naar de kans dat ze de eerste vijf jaar zonder of met transplantatie overleven (dat is in technische termen de target variable). Jonge mensen hebben – als je alleen naar die eerste vijf jaar kijkt – minder overlevingswinst want de kans dat je die vijf jaar zonder transplantatie overleeft wordt kleiner met het stijgen van de leeftijd (en dus is de winst bij ouderen groter, als je alleen naar die eerste vijf jaar blijft kijken). Geen rekening wordt gehouden met de overleving na die vijf jaar, die bij jongere mensen veel gunstiger uitpakt en geen rekening wordt gehouden met allerlei andere overwegingen die aanleiding kunnen zijn om juist jonge mensen voorrang te geven. Het algoritme is getraind met een verkeerde target variable, en het geeft sowieso alleen een berekening, geen oordeel wanneer een grotere overleving recht zou moeten geven op een transplantatie. Precies omdat de uitkomst contra-intuïtief is wordt doorgezocht tot de fout is gevonden, maar vaak zal de uitkomst in de lijn der verwachtingen liggen of überhaupt lastig te voorzien zijn, waardoor kritiek weggewuifd zal worden met een verwijzing naar de testwaarden.

Testwaarden (bijvoorbeeld de zogenaamde accuracy) van het model blijven gevangen in de beperkingen van de training dataset en die van de target variable, dat wil zeggen de beoogde output. Ze zeggen daarom weinig over de betrouwbaarheid in geval van toepassing van het model op real life situaties.

Laten we de energietransitie vooral niet uit handen geven aan grote spelers die belang hebben bij het in stand houden van de AI-hype, en ons eerst eens gaan bekwamen in een beter begrip van wat AI modellen wel en niet kunnen, voordat we als een blind paard achter modellen aanhollen die ons wellicht ver vooruit zijn maar mogelijk in de verkeerde richting gaan.

 

[1] Arvind Narayanan en Sayash Kapoor, ‘Does the UK’s Liver Transplant Matching Algorithm Systematically Exclude Younger Patients?’, AI Snake Oil (blog), 11 november 2024, https://www.aisnakeoil.com/p/does-the-uks-liver-transplant-matching.

Deel via: