Clip 1
ChatGPT over factchecken

Sinds de introductie van ChatGPT in november is voor het eerst de reikwijdte van kunstmatige intelligentie echt voelbaar geworden. Deze chatbot is geoptimaliseerd voor menselijke conversaties en het algoritme is getraind met massa’s geschreven informatie van vóór 2022.

ChatGPT onthoudt in de chat eerder gestelde vragen, waardoor je vanzelf het gevoel krijgt een echt gesprek te voeren. Het resultaat is een chatbot die menselijk communiceert en antwoorden geeft op uiteenlopende verzoeken: uitleg, het schrijven van complete webteksten, gedichten en essays.

Wie wat vraagt over een onderwerp is vaak verrast over de nauwkeurigheid en nuance in de antwoorden. Nieuwscheckers wilde weten of je ChatGPT ook zou kunnen inzetten als factchecker. Is deze bot een nieuwe collega die in 20 seconden doet wat een menselijke factchecker een dag kan kosten?

Verstandig

Het begint goed: ChatGPT heeft verstand van factchecken! Stel de vraag wat factchecks zijn en het antwoord van ChatGPT doet veel factcheckers instemmend knikken. De opsomming die de bot geeft is een samenvatting van definities en criteria die ook op allerlei factcheck-sites te vinden zijn, met eisen aan brongebruik, bewijs en transparantie.

Dat ChatGTP zo in sync lijkt met factcheck-waarden is logisch: in de trainingsfase heeft het programma veel factchecks en informatie over factchecken ‘gezien’. De bot kan dus ook verstandig antwoorden op de vraag wat checkbare claims zijn en of je een check kunt doen met slechts één bron.

Kan ChatGPT factchecks uitvoeren?

Op het eerste gezicht heeft het daar wel veel van weg. Het programma kan sowieso veel vragen begrijpelijk beantwoorden, en mechanismen en definities eenvoudig uitleggen. Vraag ChatGPT een factcheck over de bewering ‘Vitamine D kan mensen met depressie helpen’ en er volgt een genuanceerd antwoord van de stand van zaken in dit vakgebied.

Het onderwerp van deze factcheck vraagt hoofdzakelijk een korte review van bewijs uit wetenschappelijk onderzoek naar de invloed van vitamine D op depressiesymptomen. ChatGPT zou je ‘breed opgeleid’ kunnen noemen: in de trainingsfase heeft het algoritme bergen journalistieke artikelen, websites, fora, wetenschappelijke publicaties en inhoud van boeken verteerd. Dat is de basis van een respons die de ‘consensus’ van dit moment aardig weergeeft.

Geeft ChatGPT een oordeel over de claim?

Clip 16 cropped
ChatGPT checkt een claim

Dat wisselt. Soms leest het antwoord meer als een review, dan een factcheck met oordeel: waar of onwaar. De bewering is in dit geval niet erg stellig– ‘kan mensen helpen’- en er zijn signalen dat Vitamine D mogelijk ‘iets’ kan doen. Het bewijs is wisselend van kwaliteit en sommige studies zien géén effect van vitamine D. ChatGPT eindigt meestal met algemeenheden over ‘meer onderzoek’ en een medische waarschuwing dat je vitamine D niet moeten nemen in plaats van bewezen therapieën.

Bij een later verzoek om een vitamine D en depressie-check te maken, is ChatGPT opeens veel stelliger: de bewering is ‘Deels waar’. Bij nader inzien zit dat verschil in de respons vermoedelijk in de formulering van de bewering. De tweede poging is dat ‘Vitamine D helpt mensen met depressie’. Stelliger beweringen leveren mogelijk duidelijker oordelen.

Welk bewijs levert ChatGPT bij deze factcheck?

In de eerste poging staat geen enkel concreet aanknopingspunt, buiten het zinnetje ‘several randomized controlled trials’. De argumentatie klinkt onderbouwd, maar inhoud is niet te verifiëren. Om bronnen moet je expliciet vrágen. Als je erop wijst dat het ontbreken van bronnen in strijd is met de eerder gegeven vijf factcheck-criteria, volgt er een excuus, en een nieuwe poging.

Welke bronnen gebruikt ChatGPT?

Als je het verzoek voor de dezelfde factcheck herhaalt met als extra voorwaarde bronvermelding, dan geeft ChatGPT enkele publicaties bij globaal dezelfde uitleg. Onderaan de tekst worden die referenties in een literatuurlijstje weergegeven. Dat biedt meer aanknopingspunten voor verificatie en vergelijking met andere bronnen. Dat laatste is sowieso altijd een goed idee, doceert ChatGPT: evalueer meerdere bronnen.

ChatGPT heeft in de trainingsfase ook veel onbetrouwbare informatie en  regelrechte onzin verwerkt, maar de bot rangschikt alles op basis van uiteenlopende criteria. Als je expliciet om een opsomming van betrouwbare bronnen vraagt, volgt een lijstje met peerreviewed journals, overheidsrapporten en nieuwsorganisaties.

Hoe gebruikt ChatGPT de bronnen die worden aangehaald?

Clip 9c
‘Ik klink als een expert’, aldus ChatGPT

‘Gebruiken’ is een te menselijke omschrijving. De bot ‘gebruikt’ niks, ‘interpreteert’ niks en leidt ook niets af uit bronnen. De bot heeft ook geen toegang tot de inhoud van de aangehaalde papers. ChatGPT genereert een respons op basis van associaties afgeleid uit de trainingsfase.

De bot ‘snapt’ kortom niks van de inhoud. Die indruk van begrip en inzicht ontstaat vanzelf en bijna ongemerkt binnen het ‘gesprek’, want de software levert doorlopend vloeiende antwoorden die inzichtelijk, begrijpelijk en menselijk klinken. ChatGPT geeft toe dat dat een  valkuil is. Je gaat de gesprekspartner ongemerkt levend intellect toedichten, terwijl de respons even machinaal is als een vertaling van Google Translate. ‘Interactie met mij is niet anders dan het gebruik van elke andere software tool’, zegt ChatGPT.

Volgens ChatGPT zijn bronnen ‘representatieve voorbeelden uit het vakgebied’. De argumentatie en analyse in de factcheck zijn dus niet inhoudelijk uit de bronnen afgeleid. De beoordeling van de claim is gebaseerd op een enorm corpus van bronnen en data. De referenties zijn een illustratie: vermoedelijk terecht erbij gesleept, maar dat zou je moeten checken.

 

Hoe selecteert ChatGPT bronnen?

Clip 9c
‘Ik heb geen toegang tot inhoud van publicaties’, aldus ChatGPT

Als je om twee referenties vraagt, vertelt de chatbot dat de aangehaalde studies ‘highly relevant’, en ‘well-regarded’ zijn. Oppervlakkig bekeken lijkt dat te kloppen, want de aangehaalde reviews gaan over het onderwerp. Maar of ze de meest relevante zijn in het vakgebied?

ChatGPT weet het zelf ook niet: de bot kan niet selecteren of prioriteit aanbrengen aan de hand van de inhoud. In de trainingsfase heeft een algoritme bepaalde waarden toegekend aan publicaties op basis van citaties en omdat het systematische reviews zijn. Bronnen worden naast de inhoud kortom geciteerd op basis van impact en methodologie. 

Kan ChatGPT factchecken?

Clip 1d cropped
Blijven checken: ChatGPT maakt soms opvallende fouten

In veel opzichten is ChatGPT een zoekmachine die resultaten verpakt in begrijpelijke, beknopte verhaaltjes. De bot legt uit hoe een bepaald onderwerp in elkaar steekt en geeft op verzoek bronnen die daarbij horen. Voor snelle uitleg en duiding, en zelfs een eerste, voorlopig oordeel kan de bot zinnige informatie opleveren.

In het geval van een complete factcheck is er een aparte – menselijke – verificatie nodig om te zien of de aangehaalde bronnen relevant zijn, en de argumentatie ondersteunen, en in verhouding staan tot wat er nog meer bekend is. Dat illustreert een simpele vraag, die een feitelijk onjuiste respons oplevert. Voor factcheckers is de bot is in ieder geval bruikbaar in de researchfase, ter oriëntatie op nieuwe onderwerpen; de rol die Google tot nu toe vervulde.

Omdat niet te achterhalen is hoe ChatGPT een specifieke respons genereert, zijn online zoek- en verificatievaardigheden nog altijd onmisbaar. Dat zegt ChatGPT trouwens ook tot vervelens toe: check altijd meerdere bronnen. ChatGPT telt maar voor één.

arno van t hoog

Arno van 't Hoog

Factchecker Nieuwscheckers

Arno van ’t Hoog is wetenschapsjournalist en werkt als factchecker voor Nieuwscheckers. Als wetenschapsjournalist, gespecialiseerd in …
Profiel-pagina