Le CHART Statement : un jalon méthodologique pour améliorer le reporting des études sur les chatbots d’intelligence artificielle en santé

Au cours de l’été 2025, une nouvelle ligne directrice de reporting a été publiée : le CHART Statement, pour Chatbot Assessment Reporting Tool (The CHART Collaborative, 2025b, 2025a).

La nécessité de mieux rapporter les études

Cette initiative fait suite à une revue systématique préoccupante (Huo et al., 2025), qui mettait en évidence la très faible qualité du reporting (c’est-à-dire la manière dont les chercheurs décrivent la méthodologie et les résultats de leurs études) dans les travaux évaluant les performances des chatbots d’intelligence artificielle générative (comme ChatGPT) utilisés pour délivrer des conseils en santé ou synthétiser des preuves. Voici les résultats clés de cette revue systématique ayant inclus 137 études primaires :

  • Concernant la nature des modèles étudiés
    • 99 % des études évaluaient un Large Language Model (LLM) propriétaire (closed-source, ex. ChatGPT).
    • Aucune étude ne décrivait de façon adéquate les caractéristiques techniques du modèle (version, température, longueur maximale des tokens, fine-tuning, nombre de couches, etc.).
  • Concernant la méthodologie
    • 99 % des études ne détaillaient pas la phase de prompt engineering.
    • 40 % ne rapportaient pas la date des requêtes (queries).
    • 3 % seulement mentionnaient la localisation des requêtes.
    • 23 % indiquaient le nombre de conversations de chat utilisées.
    • 35 % précisaient le nombre de requêtes effectuées.
  • Concernant l’évaluation de la performance
    • 13 % décrivaient un processus d’évaluation standardisé.
    • 12 % rapportaient l’utilisation d’une procédure d’évaluation en aveugle.
    • 65 % des investigateurs évaluaient les LLM sur la base de leur opinion, sans référence à un standard reconnu (par ex. recommandations de bonne pratique clinique, revues systématiques Cochrane…).

Ces recherches relèvent du champ émergent des « Chatbot Health Advice Studies » (CHAS), dont l’objectif est d’évaluer la capacité des chatbots à synthétiser les preuves scientifiques, fournir des conseils en matière de dépistage, de diagnostic, de traitement ou de prévention, et délivrer des informations médicales générales.

L’absence de reporting rigoureux compromet la reproductibilité des travaux, fragilise la confiance dans leurs résultats et, en définitive, menace la qualité, l’efficacité et la sécurité des soins.

À l’image d’un pilote qui suit une checklist pour garantir la sécurité de son vol, le CHART Statement se présente comme un outil pratique et facile d’utilisation qui a pour but d’aider les auteurs à ne pas omettre d’éléments essentiels lors de la rédaction d’un article scientifique dans le domaine des CHAS. Au-delà de cette fonction première, la checklist peut également servir de guide dès la conception d’une étude et accompagner la rédaction d’un protocole. Il est toutefois recommandé de l’utiliser en complément des guidelines classiques (comme STROBE, TRIPOD, STARD ou CONSORT) lorsque l’article porte sur des études observationnelles, des modèles prédictifs, des tests diagnostiques ou des essais contrôlés randomisés. C’est par exemple le cas lors d’une étude évaluant l’usage de ChatGPT en tant que psychothérapeute ou coach de santé, comparé à un groupe contrôle, afin de mesurer son efficacité selon différents critères de jugement cliniques (évolution du score de dépression ou des comportements de santé).

Une responsabilité collective

L’adoption de ce nouvel outil repose désormais sur l’ensemble des acteurs : cliniciens, chercheurs, institutions de recherche, éditeurs, etc. Tous ont un rôle à jouer pour encourager son utilisation et ainsi améliorer la qualité du reporting dans les études sur les chatbots de santé. Les auteurs du CHART Statement insistent également sur le fait que, compte tenu des progrès rapides de l’IA en santé, cette ligne directrice sera amenée à évoluer régulièrement. La prochaine étape majeure consistera probablement à développer un outil d’évaluation du risque de biais pour les CHAS.

Bibliographie

Huo, B., Boyle, A., Marfo, N., Tangamornsuksan, W., Steen, J. P., McKechnie, T., Lee, Y., Mayol, J., Antoniou, S. A., Thirunavukarasu, A. J., Sanger, S., Ramji, K., & Guyatt, G. (2025). Large Language Models for Chatbot Health Advice Studies: A Systematic Review. JAMA Network Open, 8(2), e2457879. https://doi.org/10.1001/jamanetworkopen.2024.57879

The CHART Collaborative. (2025a). Reporting guideline for chatbot health advice studies: The Chatbot Assessment Reporting Tool (CHART) statement. BMJ Medicine, 4(1), e001632. https://doi.org/10.1136/bmjmed-2025-001632

The CHART Collaborative. (2025b). Reporting guidelines for chatbot health advice studies: Explanation and elaboration for the Chatbot Assessment Reporting Tool (CHART). BMJ, 390, e083305. https://doi.org/10.1136/bmj-2024-083305