Grâce à une interface facile d’utilisation, Chat GPT, DeepSeek et Vera se sont rapidement intégrées dans nos vies, que ce soit au travail ou à l’école. Ces intelligences artificielles conversationnelles peuvent nous aider à effectuer des recherches, rédiger des e-mails ou trouver des informations. Mais tout ce que disent ces IA est-il fiable ?
« Non ! Et c’est un non catégorique ». Tout ce qui émane des Intelligences artificielles (IA) n’est pas forcément fiable. Ainsi répond Diyé Dia, cheffe d’une entreprise spécialisée en intelligence artificielle. « L’IA se base sur des données comprenant beaucoup d’informations vraies, mais aussi d’autres parfois fausses. Il y a un travail de recoupement à faire sur ce que disent les intelligences artificielles conversationnelles. »
La fiabilité des IA fait partie des points débattus lors du troisième sommet mondial de l’IA, qui s’est tenu du 10 au 11 février à Paris (France). Bien qu’elle soit une technologie en train de façonner le monde et nos pratiques, l’IA ne fournit pas toujours des informations fiables.
Le média France Info cite plusieurs équipes de chercheurs ayant tenté d’évaluer précisément la fiabilité des IA conversationnelles, bien que cette tâche reste complexe. Les résultats varient selon les méthodes d’évaluation, le moment où elles sont réalisées – ces technologies évoluant constamment – et l’IA étudiée. Si l’on se concentre sur ChatGPT, l’une des plus performantes sur le marché, les estimations de fiabilité vont de 60 % à 90 %.
10 à 40% d’erreurs
Une étude hongkongaise réalisée à l’été 2023, souvent citée par des spécialistes comme Luc Julia, l’un des concepteurs de Siri (l’assistant vocal d’Apple), a conclu que la fiabilité de ChatGPT-3.5 atteignait 64 %. Le test de performance AdvGLUE a évalué la robustesse de GPT-3.5 à 67 % et celle de GPT-4 à 78 % face à des demandes trompeuses ou ambiguës.
« D’autres évaluations montrent cependant que ChatGPT-4 et sa version la plus récente, ChatGPT-4.0, affichent un taux de fiabilité élevé. Le test MMLU (Multi-task Language Understanding), qui évalue les capacités des grands modèles de langage, leur attribue respectivement des taux de réussite de 88,7 % et 86,4 % », poursuit France Info.
En somme, les chercheurs estiment que les IA conversationnelles produisent entre 10 % et 40 % d’erreurs dans leurs réponses, ce qui reste globalement supérieur aux performances humaines.
L’exemple de Vera
Selon Diyé Dia, qui a soutenu, en 2016, une thèse à l’Ecole doctorale des sciences pour l’ingénieur (Clermont-Ferrand, en France) sur le machine learning, un sous-domaine de l’intelligence artificielle, ces erreurs s’expliquent par un facteur principal : « Ce sont des outils qui permettent à l’Homme d’être plus efficace, mais ils ne remplacent pas l’intelligence humaine. Leur objectif est d’apprendre, donc plus la question est précise, meilleure est la réponse. » Ainsi, lorsqu’on leur soumet une requête, elles génèrent des réponses en fonction des probabilités, en se basant sur un corpus de textes appris, la question posée et le contexte des échanges précédents. Ce mécanisme peut toutefois entraîner des « hallucinations », c’est-à-dire des réponses totalement inventées.
Interrogé par France Info, Éric Moulines, professeur au Centre de mathématiques appliquées de l’École polytechnique en France, explique que « ChatGPT n’est pas capable d’évaluer la véracité de ses données. » Selon lui, dans sa conception, « il n’existe pas réellement de contrainte de fiabilité. »
Pour tenter de limiter les erreurs, les hallucinations ou les biais culturels, comme ceux détectés dans l’IA chinoise DeepSeek, de nouveaux concepts d’intelligence artificielle voient le jour. C’est le cas de Vera, une IA accessible par téléphone ou via WhatsApp, qui permet de vérifier des informations. Vera ne répond qu’en s’appuyant sur des articles issus d’une liste prédéfinie de médias reconnus et de fact-checkeurs fiables. Si elle ne trouve pas de réponse dans ces sources, elle est conçue pour admettre qu’elle ne sait pas – une nouveauté dans ce domaine marqué par des enjeux d’innovation et parfois géopolitiques.
Dans ce contexte, l’Afrique gagnerait à multiplier des initiatives qui permettent un recoupement plus facile, comme celle d’Awa, une IA qui parle wolof.
Par Moussa DIOP