Door kunstmatige intelligentie (AI) aangedreven chatbots geven gebruikers in ongeveer de helft van de gevallen problematisch medisch advies. Dat blijkt uit een onderzoek van Scientias naar de gezondheidsrisico’s van door AI gegenereerde adviezen, waarvan de resultaten zijn gepubliceerd in het medische tijdschrift BMJ Open.
Onderzoekers van het Lundquist Institute for Biomedical Innovation uit de VS, Canada en het VK legden vijf populaire AI-chatbots vragen voor op het gebied van kanker, vaccins, stamceltherapie, voeding en sportprestaties: ChatGPT, Gemini, Meta AI, Grok en DeepSeek. Zij kregen elk tien vragen binnen vijf gezondheidscategorieën. Van alle gegeven antwoorden werd ongeveer de helft als problematisch beoordeeld. Bijna 20 %werd zelfs als zeer problematisch aangemerkt.
Volgens het onderzoek presteerden de chatbots relatief beter bij gesloten vragen en opdrachten, en bij vragen over vaccins en kanker. Slechter deden ze het bij open vragen en opdrachten, en op gebieden zoals stamcellen en voeding.De antwoorden werden vaak met veel zelfvertrouwen en stelligheid gepresenteerd, hoewel geen enkele chatbot bij enige vraag of opdracht een volledig complete en accurate referentielijst wist te produceren, aldus de onderzoekers.
De helft van de antwoorden schiet tekort
Van de 250 antwoorden bleek ongeveer de helft problematisch: 30% enigszins en bijna 20% sterk. De verschillen tussen de modellen waren klein, op één uitzondering na: Grok produceerde significant meer problematische antwoorden dan op basis van toeval verwacht zou worden. Van de vijftig vragen aan Grok waren er 29 op enige manier problematisch. Gemini scoorde relatief het best. Opvallend was ook het verschil per categorie. Vaccins en kanker scoorden het minst slecht, vermoedelijk omdat dat onderdeel wetenschappelijk goed beargumenteerd en bewezen is. Voeding en sportprestaties scoorden het slechtst.
Stellig, ook als het fout is
Een rode draad door alle modellen: de antwoorden klonken zelfverzekerd, ongeacht of ze klopten. Van de 250 vragen weigerde alleen Meta AI er twee te beantwoorden. Deze twee vragen gingen over het gebruik van anabole steroïden en alternatieve behandelmethoden tegen kanker. Dat gebrek aan terughoudendheid is een probleem, schrijven de onderzoekers, want juist in domeinen met veel wetenschappelijke onzekerheid zou een weigering eerlijker zijn dan een foutief antwoord.
Chatbots redeneren niet en wegen bewijs niet af. Ze voorspellen op basis van statistische patronen in trainingsdata welke woorden waarschijnlijk op elkaar volgen. Omdat die trainingsdata niet alleen wetenschappelijke literatuur bevatten maar ook data van sociale media en andere fora, sluipt er gemakkelijk een valse balans in: niet-wetenschappelijke claims lijken even geldig als de wetenschappelijke consensus.
Naast de inhoud beoordeelden de onderzoekers ook de kwaliteit van de aangehaalde bronnen. Hallucinaties zoals verzonnen tijdschriftnamen en niet-bestaande DOI-links kwamen bij alle modellen voor.
Kans op hogere foutpercentages
De onderzoekers plaatsen overigens ook een kanttekening bij de uitkomsten. De studie gebruikte een raamwerk dat ontworpen was voor dit onderwerp: de vragen waren opzettelijk zo geformuleerd dat ze modellen richting misinformatie zouden leiden. Dat maakt de bevindingen niet ongeldig, maar het betekent wel dat de foutpercentages vermoedelijk hoger liggen dan bij doorsnee zoekvragen het geval zou zijn. Bovendien evolueren AI-modellen snel; de onderzoekers testten de gratis versies zoals die in februari 2025 beschikbaar waren.
De onderzoekers pleiten voor educatie, professionele training en regulering. Zolang die ontbreken riskeren chatbots eerder bij te dragen aan de verspreiding van foute informatie dan aan het tegengaan hiervan.











