Is taal leren wel pure statistiek?
Voor mensen die de taaltechnologie een beetje volgen, was dit een verwarrend jaar. In april kwam de softwareontwikkelaar Blake Lemoine van Google naar buiten met een oorspronkelijk intern bedoeld rapport waarin hij beweerde dat een nieuwe chatbot waaraan het bedrijf werkte, LaMDA, misschien bewustzijn had en heel misschien zelfs een ziel. Hij werd ontslagen omdat hij interne informatie naar buiten had gebracht – zijn gesprekken met LaMDA. Tegelijkertijd brak in ieder geval bij mij het inzicht door dat er iets cruciaals ontbreekt aan de huidige modellen: kennis van regels.
De taalmodellen zijn de laatste jaren zeker indrukwekkend. Er heeft sinds 2016 een revolutie plaatsgevonden waardoor computers gegevens over gigantische verzamelingen van bestaande tekst nog efficiënter kunnen verwerken. De bestaande modellen zijn dan ook allemaal gebaseerd op zeer geavanceerde statistiek en ze werken zoals de voorspelfunctie op telefoons en in tekstverwerkers die steeds een suggestie doen over wat het volgende woord kan zijn, gebaseerd op wat je zojuist hebt getikt.
Die systemen werken als volgt: je hebt ‘op een mooie’ getikt, en de computer ziet in zijn database dat er na die drie woorden meestal ‘ochtend’ komt. En dus suggereert het ook nu dat woord. De moderne modellen zijn natuurlijk geavanceerder, bijvoorbeeld doordat ze rekening kunnen houden met een veel bredere context dan de laatste paar woorden die je hebt opgeschreven. Maar in de kern blijft dit de werkwijze.
Bovendien werken moderne taalmodellen ook voor andere taaltaken: een van de bijzonderheden van de nieuwe technieken is dat één en hetzelfde taalmodel zelfs voor allerlei taaltaken gebruikt kan worden. Vertalen? Je maakt een database van Engelse en hun Russische vertalingen en zoekt voor een te vertalen zin op hoe groepjes woorden in die zin precies vertaald worden in de database. Vervolgens las je die woordgroepjes aan elkaar op een manier die het meest overeenkomt met de manier waarop dat in Engelse teksten gebeurt. Chatten? Als je gesprekspartner iets gezegd heeft, zoek je in je database op wat er eerder op soortgelijke opmerkingen is gezegd.
Die nieuwe systemen hebben al wat van hun kunnen laten zien. In 2020 publiceerde de Britse krant The Guardian voor het eerst een opiniestuk dat geschreven was door een computer. In datzelfde jaar kondigde Elon Musk aan dat hij een project dat artikelen liet schrijven op basis van een lijstje feiten, stopzette omdat de resultaten te griezelig goed waren.
Maar met name dit jaar werd er wel het een en ander bekend over wat computers nog altijd niet kunnen – en dat zijn op het oog verrassend simpele zaken. Neem rekenen: je zou zeggen dat computers daar bij uitstek goed in zijn, maar als ze het moeten leren op basis van alleen maar voorbeelden, blijkt het lastig. Hoe spreek je lange getalsnamen als ‘233.476.892’ uit? En hoe bepaal je wat het volgende getal is? Voor mensen zijn dat simpele vragen, maar de computer kan het op basis van voorbeelden lastig reconstrueren.
De reden daarvoor is mogelijk dat er, hoe groot je database ook is, altijd maar weinig voorbeelden van zulke grote getallen zijn. Sterker nog, de meeste getallen onder de vijf miljard worden natuurlijk nooit genoemd. Hoe moet je dan statistiek bedrijven? Om die reden leren mensen overigens ook niet tellen met alleen maar willekeurige voorbeelden: je legt een kind de regel expliciet uit, of je geeft een aantal goed gekozen gestructureerde voorbeelden (‘duizend één en twintig, duizend twee en twintig, en wat komt er dan?’).
Een ander voorbeeld, ook van dit jaar: taalkundigen hebben laten zien dat computers betrekkelijk eenvoudige zinsconstructies niet goed begrijpen. Ze gebruikten daarvoor systemen die een ingevoerd zinnetje (‘jongen loopt door de lucht met een groene ster in zijn hand’) omzetten in een plaatje – een nieuwe toepassing van de besproken taalmodellen die het afgelopen jaar ineens een grote vlucht nam. Ook deze modellen werken met voorspellende statistiek: plaatjes in de database die gekoppeld zijn aan de woorden ‘jongen loopt’ zien er zus uit en plaatjes die gekoppeld zijn aan ‘door de lucht’ zien er zo uit. En dat wordt dan allemaal zo goed mogelijk gecombineerd.
Het is leuk om met die systemen te spelen, maar de taalkundigen lieten zien dat er problemen ontstonden bij bijvoorbeeld ontkennende woorden en bij samengestelde zinnen. Een verzoek om ‘een vrouw zonder handtas’ leverde plaatjes op van vrouwen met handtassen; een verzoek om ‘een man drinkt water en een vrouw sinaasappelsap’ gaf plaatjes van een man en vrouw die beiden oranje vocht dronken.
Anders dan bij tellen leren kinderen die hun moedertaal leren dit soort regels (‘niet’ betekent dat iets afwezig is) ook niet met expliciet onderwijs, maar dat ze het ingewikkelde begrip ontkenning over het algemeen in hun eerste levensjaren moeiteloos oppikken, en dat alle bekende talen een vorm van ontkenning hebben, is een indicatie dat dit een regel is die misschien wel in de menselijke geest zit ingebakken. Zolang we niet weten hoe we zulke regels ook in het computermodel inbakken, is er nog geen reden om te geloven dat we écht met die dingen kunnen praten.