Medium is voor menselijke verhalen. Vijf jaar geleden zou dit zinnetje de wenkbrauwen hebben doen fronsen, maar de razendsnelle opmars van kunstmatige intelligentie heeft dat veranderd. Minstens veertig procent van de recent geposte content op Medium is namelijk door of met behulp van een chatbot geschreven.
Dat percentage komt tenminste uit een analyse die WIRED liet uitvoeren door twee bedrijven die AI-detectiesoftware ontwikkelen. Pangram Labs bekeek 274.466 recente Medium-posts. Het bedrijf schat dat meer dan 47 procent vermoedelijk met AI is gegenereerd. Bij artikelen met trefwoorden uit de crypto-wereld (NFT, Ethereum) ligt dat percentage nog hoger: 78 procent. Concurrent Originality analyseerde 473 artikelen uit 2024 en schat dat 40 procent met AI is gegeneerd.
Welkome innovatie
Medium was begin 2023 nog best te spreken over de komst van chatbots. Mits er sprake is van verantwoord gebruik en transparantie is AI een welkome innovatie, schreef Scott Lamb, vicepresident content van Medium. Die benadering klinkt genuanceerd en pluriform, al waren sommige titels op Medium toen al duidelijk met een totaalverbod op het gebruik van AI-tekst.
In de zomer van 2023 is Lamb alweer van gedachten veranderd. “Medium is for human storytelling, not AI-generated writing”, schrijft hij in een nieuwe post. Volledig AI-gegenereerde tekst heet inmiddels ‘laagwaardige content’ die in de richtlijnen in een adem wordt genoemd met crypto-advies en public relations. Gebruik van AI als assistent bij het schrijven is ‘toegestaan’, maar wordt zeker niet ‘verwelkomd’.
Spamfilters en moderatie
De defintieve aanscherping van de huisregels rond AI dateert van mei 2024. Posts met AI-gegenereerde tekst worden niet meer gepromoot en je kunt er ook geen geld meer mee verdienen. Volgens de CEO van Medium, Tony Stubblebine, is in de loop van 2024 het aantal posts met AI-tekst op Medium vertienvoudigd. Maar, zegt hij, die explosieve toename is geen probleem. Medium bevat weliswaar steeds meer AI-slop, maar de meeste gebruikers krijgen dat niet te zien. Spamfilters en moderatie zorgen volgens de CEO dat copy-paste robotteksten geen aandacht krijgen.
Detectie van door AI gegenereerde tekst is overigens niet helemaal waterdicht. Zulke analysetools maken zelf gebruik van AI die getraind is verschillen te herkennen tussen mensentekst en AI-tekst. Maar detectiesoftware levert ook een klein percentage valspositieven. De software ziet ten onrechte ook sporen van AI in teksten die zijn geschreven ver voor de komst van chatbots. Bovendien is er sprake van een wedloop, waarbij bedrijven diensten aanbieden die tekst bewerken om detectie te ontlopen. Ondanks al die beperkingen is AI-detectie en analyse van woordgebruik wel degelijk bruikbaar om trends te signaleren.
Linkedin en Wikipedia
Medium is uiteraard niet de enige plek waar chatbots een deel van de schrijfarbeid hebben overgenomen. Dat geldt ook voor nieuwsbriefplatform Substack en online encyclopedie Wikipedia. Volgens GPTZero is in 10 procent van de populaire Substacks een vorm van AI te detecteren. Onderzoekers gingen Wikipedia te lijf met software van GPTZero, en die markeerde 5 procent van de recente Engelstalige posts als AI-gegenereerd.
Tot slot laat LinkedIn goed zien hoe sommige gebruikers chatbots op grote schaal inzetten. Originality heeft Linkedin-posts geanalyseerd die vanaf 2018 zijn verschenen. Twee maanden na de release van ChatGPT (november 2022) is een duidelijke AI-boost te zien. Originality stelt dat in een recente steekproef ruim vijftig procent van de posts met behulp van AI is geschreven. Niet alleen het aantal posts met AI-tekst is gegroeid, ook het aantal woorden per post is gestegen.
Influencers en coaches
Het is allemaal eenvoudig verklaarbaar: een chatbot kauwt zonder moeite een paar extra alinea’s en online zijn prompts te vinden om AI gericht voor je personal brand in te zetten. Zo legt Forbes stap voor stap uit hoe je ChatGPT kunt trainen en instrueren voor een schier eindeloze stroom LinkedIn-content. Een chatbot komt op commando met pakkende slogans (hooks), een opsomformat met losse regeltjes en de geijkte slotzin die lezers uitnodigt om te reageren.
Vooral influencers en businesscoaches zijn in hun nopjes, want content maken kost geen moeite meer en het LinkedIn-algoritme beloont productiviteit en interacties met een groter bereik. Tegelijkertijd worden doorsnee gebruikers moe van de zouteloze AI-formats en het gehengel naar reacties: engagement bait. Het leidt tot discussies die ook rond Medium zijn te horen: veel mensen willen originele, authentieke content van andere mensen lezen, maar die categorie wordt steeds meer verdund door AI-slop.
60.000 wetenschappelijke papers
De vraag is of de opkomst van chatbot-tekst meer dan alleen irritant en geestdodend is. Je kunt een chatbot namelijk ook trainen om in een wetenschappelijke stijl te schrijven. In hoeverre dat al gebeurt is grotendeels een vraagteken. Er worden pogingen gedaan om een indruk te krijgen in hoeverre chatbots meehelpen bij het produceren van wetenschappelijke papers.
Een onderzoek keek naar specifieke woorden die chatbots regelmatig gebruiken in wetenschappelijke teksten (zoals: intricate, meticulous, commendable). Op basis van dat woordgebruik schat Andrew Gray dat 60.000 papers ofwel 1 procent van het totale aantal in 2023 is geproduceerd door of met assistentie van een chatbot.
Google Scholar
Het inzetten van chatbots voor het maken van wetenschappelijk publicaties levert nieuwe risico’s, concluderen vier Zweedse onderzoekers in een recente analyse van publicaties op Google Scholar. Zeker als Google Scholar botpapers zonder reserves of labels tussen legitiem onderzoek presenteert en je met AI het woordgebruik en daarmee de vindbaarheid van een botpaper kunt optimaliseren.
De onderzoekers doorzochten Scholar met woorden die gebruik van chatbots verraden, zoals “as of my last knowledge update” of “I don’t have access to real-time data”. Dat leverde 139 publicaties, waarvan 89 in niet-geïndexeerde journals en 12 preprints. De meerderheid van deze publicaties ging over beleidsrelevante onderwerpen, zoals milieu en gezondheid. Het zijn geen enorme aantallen, maar AI-gefabriceerde publicaties kunnen wel de kennisbasis en discussies over onderzoek vervuilen en zo het vertrouwen in de wetenschap aantasten, aldus de onderzoekers.
Vertaalde clickbait
Verdunnen en vervuilen van beschikbare informatie lijkt het belangrijkste effect van AI. Die invloed is op dit moment het sterkst zichtbaar bij online vertalingen, een AI-toepassing die al jaren beschikbaar is via Google Translate. Het merendeel van het internet bestaat inmiddels uit kopieën van dezelfde tekst in meerdere talen. Volgens de onderzoekers zijn het vaak weinig verheffende artikeltjes met korte zinnen, zoals Engelstalige clickbait gericht op het genereren van advertentie-inkomsten.
Dat is althans de conclusie van een analyse van ruim zes miljard zinnen: meer dan de helft daarvan heeft overeenkomstige kopieën in minstens drie talen. Deze online vertaalslag schaadt vooral kleinere talen, schrijven de onderzoekers. Chatbots die met schrale informatie in een kleine taal zijn getraind, leveren kwalitatief minder bruikbare en betrouwbare output.
Informatie-inteelt
De invloed van machinevertaling laat in het klein zien wat bij AI in het algemeen geldt: garbage in, garbage out. De prestaties van een AI-model zijn afhankelijk van de kwaliteit van het trainingsmateriaal. Nu het internet wordt overspoeld met zouteloze chatbot-teksten, goedkope vertalingen en kitscherig beeld, levert dat nieuwe vragen. Alle informatie die momenteel met AI online verschijnt, wordt het toekomstig trainingsmateriaal voor bedrijven die AI verder willen ontwikkelen.
Daarin schuilen interessante risico’s, laten onderzoekers zien. Als je AI-modellen traint met teveel AI-gegenereerde tekst en beeld gaan ze uiteindelijk onzin produceren, een proces dat model collapse wordt genoemd. Of deze informatie-inteelt een groot risico vormt, moet nog blijken. Het laat in ieder geval zien dat online data verzameld voor de komst van chatbots meerwaarde heeft en dat verdere training van AI waarschijnlijk niet lukt zonder menselijke input. Voor een technologie die zoveel online informatievervuiling en irritatie veroorzaakt is dat een rare paradox.