Claude is een nuttige factcheck-assistent

Bij Nieuwscheckers hebben we eerder chatbots ingezet als factchecker. De eerste test in februari 2023 leerde vooral dat ChatGPT een babbelende black box is, die veel dingen verzint. De tweede test met Bing AI, Google’s Bard en ChatGPT toonde dat er in een half jaar tijd flinke vooruitgang is geboekt. Vooral Bing AI kon een claim redelijk accuraat evalueren door eerst online te zoeken en de opgehaalde informatie te verwerken in een antwoord, met bronnen en links.

Deze keer beproeven we een nieuwe bot: Claude.ai van Anthropic. Claude heeft een optie die Bing, Bard en ChatGPT (nog) niet hebben: je kunt direct grote pdf’s uploaden en Claude kan de inhoud van die documenten doorzoeken, samenvatten en in onderlinge samenhang beoordelen. Je kunt bijvoorbeeld vragen op welke punten onderzoeken elkaar tegenspreken, en waarom. Claude is kortom goed in het conceptueel ontsluiten van documenten.

De analytische en tekstuele vaardigheden van Claude zijn interessant voor factchecks van medische, voedings- of gezondheidsclaims die met wetenschappelijke publicaties worden geverifieerd. Nieuwscheckers publiceert dat soort factchecks met enige regelmaat. Om te zien of Claude dezelfde taak ook kan volbrengen, hebben we de chatbot een aantal wetenschappelijke publicaties gegeven en vervolgens een bewering om te toetsen.

Dikke prompt

We gebruiken daarvoor eerder gepubliceerde factchecks. De in die checks gebruikte bronnen zijn als pdf aan Claude gevoerd en vervolgens is een opdracht gegeven om de bewering uit de factcheck te evalueren en het resultaat in een factcheck uit te schrijven.

Zo’n opdracht of prompt is uitgebreider dan een losse zin. Als je naast de inhoud ook de stijl en het format van een factcheck als antwoord wilt, plus enige nuance en het juiste taalniveau, dan moet je extra instructies meegeven, al dan niet in de vorm van een concreet voorbeeld. Bovendien is Claude vooralsnog alleen aanspreekbaar in het Engels. Na een flink aantal pogingen gaf onderstaande prompt een consistent resultaat.

Write a factcheck of the following claim using the scientific publications. Mention these publications in the factcheck when you give arguments, percentages or estimates, and also list the same sources below the factcheck under ‘Sources’. For writing style follow a similar layout of the factcheck given in Style Example: headline, lead (80 words summary), claim, verdict, source of verdict, why is this true / not true, conclusion, sources. Give a balanced perspective of the evidence, instead of just saying the claim is true or false. Start the evaluation of the evidence with a brief and simple account of the mechanisms and molecules that are supposed to be at play. Be concise but use easy to understand language. This is the claim [ BEWERING ]

Test met factchecks

Voor de test zijn tien factchecks geselecteerd op het gebied van voeding, milieu en gezondheid, die eerder door Nieuwscheckers zijn geverifieerd met wetenschappelijke publicaties. In de onderstaande tabel staat het onderwerp van de factcheck en daarnaast het oordeel van Nieuwscheckers en Claude. De oordelen linken telkens naar de factchecks, in het geval van Claude is dat een pdf.

Factcheck	Nieuwscheckers	Claude
RS-virus	Waar	Mostly true
Zonnebrandcrèmes	Onwaar	Misleading
Frisdrank	Waar	Misleading
Koffie verkeerd	Waar	Misleading
Parkinson	Ongenuanceerd	Unproven
Champagne	Onwaar	Uncertain
Bloedstolsels	Onwaar	False
Vitamine D	Deels onwaar	Uncertain
Tatoeage	Onwaar	Misleading
Ontrouw	Onwaar	Uncertain

Negen uit tien

Claude doet het niet slecht, en dat is een understatement. De chatbot heeft oog voor de essentie, schrijft compact, genuanceerd en haalt uit de pdf’s geregeld extra bronnen, voorbeelden en argumenten, die in factchecks van Nieuwscheckers niet aan bod zijn gekomen.

Bij negen van de tien factchecks loopt de hoofdlijn van de analyse en de argumentatie parallel met de factchecks van Nieuwscheckers. Bij ééntje – milieu-impact van koffie verkeerd – is het verschil groter. Dat is geen echte verrassing, want de sleutel tot de achterliggende rekensom is niet in de wetenschappelijke bronnen te vinden, maar in een toelichting van een woordvoerder.

Anders oordelen

Hoewel de argumentatie in de checks van Nieuwscheckers en Claude veel overeenkomsten vertoont, zit er in het uiteindelijke eindoordeel vaak een opvallend verschil. Claude heeft een voorkeur voor de labels ‘Misleidend’, ‘Onzeker’ en ‘Onbewezen’. Nieuwscheckers gebruikt eerder ‘Waar’ en ‘Onwaar’.

Bij de zonnebrand-factcheck (“In reguliere zonnebrandcrèmes zitten schadelijke stoffen, daarom kan je beter natuurlijke oliën gebruiken”) geven Nieuwscheckers en Claude dezelfde inhoudelijke analyse: natuurlijke oliën beschermen gewoon onvoldoende, en de risico’s van UV-filters voor de mens vallen mee. De bewering is bij Claude dus inhoudelijk onwaar, alleen hangt de chatbot er een moreel klinkend eindoordeel aan: Misleidend.

Bij de factcheck van de bewering dat dagelijks een blikje frisdrank de kans op diabetes met 20 procent verhoogt (‘Waar’ volgens Nieuwscheckers), redeneert Claude net als Nieuwscheckers dat suikerconsumptie duidelijk gelinkt is aan diabetesrisico, maar uiteindelijk is de bot strenger: “De bewering overdrijft de kracht van het bewijsmateriaal wat betreft het precieze risico op diabetes door uitsluitend frisdrank.” En dus luidt het oordeel ook hier ‘Misleidend’.

Dat Claude anders oordeelt is achteraf gezien verklaarbaar, want in de prompt is geen lijst met voorbeelden van oordelen gegeven. Verder stond in de instructie: “Give a balanced perspective of the evidence, instead of just saying the claim is true or false.” Dat is ook op te vatten als: gebruik vooral geen Waar of Onwaar. Dat is kortom een verbeterpunt.

Extra bronnen

Claude geeft op het eind van de factcheck een lijstje bronnen en regelmatig staan daar publicaties tussen die niet als pdf zijn geüpload. Gevraagd waar die bronnen vandaan komen, geeft Claude aan dat het referenties zijn die in de pdf’s worden genoemd: “Ik heb die specifieke referenties geselecteerd omdat deze het meest relevant waren voor de beoordeling van de claim.” Claude kan ook vertellen in welke pdf een bron wordt aangehaald, en welk bewijs of argument daarin te vinden is.

De chatbot gaat kortom verder met het ontsluiten van het bronnenmateriaal ten dienste van de factcheck, al moet telkens worden geverifieerd of die bronnen en argumenten inderdaad relevant zijn. Verificatie is eenvoudig, omdat Claude binnen deze afgebakende factcheck-opdrachten geen fantasie-referenties presenteert. ChatGPT, Bing en Bard verzinnen regelmatig publicaties die echt klinken, maar niet bestaan.

Conclusie

Claude heeft vaardigheden die van pas komen bij factchecken van beweringen met (wetenschappelijke) publicaties en rapporten. Claude kan

binnen een paar minuten een eerste, snelle indruk van een factcheck genereren;
suggesties doen voor het lokaliseren van andere relevante bronnen;
publicaties samenvatten en analyseren waarom onderzoeken uiteenlopende conclusies trekken;
bruikbare concept-factchecks generen, en die naar wens uitbreiden of herschrijven.

Het zijn kortom allemaal zaken die tijd kunnen besparen in de research en productie van een factcheck.

Toch is Claude geen volautomatische factcheck-robot, die alle werk uit handen neemt. Ook deze technologie heeft beperkingen.

Claude helpt, maar zonder inhoudelijke kennis van een onderwerp kun je de output niet op waarde schatten.
Verificatie van getallen, bronnen en beweringen die Claude genereert blijft nodig.
Zelfs bij gebruik van een uitgebreide, identieke prompt varieert de output, Claude negeert soms om onverklaarbare redenen de instructies.
Claude begrijpt Engels; vertalen is nodig.
Claude kan grote bestanden aan, maar toch is de ruimte beperkt in Mb’s en aantal documenten (maximaal 5).
Het aantal opdrachten is gelimiteerd; na circa tien prompts volgt een wachttijd van een aantal uur.
Bij Claude registeren vanuit de EU kan nog niet; met een VPN is wel toegang te regelen.