Le Chaton fat ou quand un canular viral expose les failles des benchmarks d’intelligence artificielle

Un prétendu modèle de Mistral aux performances fictives a semé la confusion sur le web, révélant une vérité dérangeante sur la fiabilité des tests de comparaison entre systèmes d’IA.

Il s’appelle « Le Chaton fat ». Il revendique 30 000 milliards de paramètres, une mémoire d’un million de tokens et des performances hors norme. Au point de surpasser Claude sur l’ensemble des benchmarks disponibles. Et pourtant, tout cela est faux.

Derrière ce nom volontairement décalé se cache en réalité l’un des canulars les plus révélateurs de ces dernières semaines dans l’écosystème de l’intelligence artificielle. À l’origine : une fausse annonce, présentée comme le lancement d’un nouveau modèle par Mistral, la société technologique européenne.

Diffusée sous la forme d’une fiche technique à l’apparence officielle, elle décrivait « Le Chaton fat » comme un modèle de pointe français, conçu pour le raisonnement complexe, le développement avancé et même des applications en génétique.

Des chiffres spectaculaires, une présentation visuelle soignée et des comparaisons flatteuses avec les leaders du marché ont suffi à rendre l’ensemble crédible. Même Arthur Mensch, PDG de Mistral AI, a contribué à la confusion en publiant sur X, le 15 juin : « It’s actually le gros chaton ».

Une décision tournée en dérision

Tout commence pourtant de manière anodine. Lors d’une prise de parole récente, Arthur Mensch annonçait que le chatbot de l’entreprise, jusqu’alors nommé Le Chat, allait être rebaptisé Vibe.

Loin d’abandonner cette appellation, une partie de la communauté en ligne s’y est attachée, avec une forme de nostalgie. En guise de protestation teintée d’humour, certains internautes ont commencé à imaginer des variantes fictives, multipliant les « chats » alternatifs, souvent absurdes.

« Le Chaton fat » — version diminutive et volontairement caricaturale — s’est rapidement imposé comme le nom le plus marquant. En quelques heures, un graphique de benchmarks circulait déjà sur X.

Une parodie qui tombe à pic

La supercherie a fonctionné précisément parce qu’elle reproduit à la perfection les codes visuels et rhétoriques des véritables annonces de modèles. Graphiques comparatifs en série, scores dominants sur chaque test, vocabulaire technique rassurant… La présentation était si convaincante que la frontière entre satire et information s’est brouillée.

L’épisode n’aurait sans doute pas pris une telle ampleur sans un contexte favorable. Quelques jours plus tôt en effet, le gouvernement américain avait demandé à Anthropic de restreindre l’accès à ses modèles les plus avancés, Fable 5 et Mythos 5, pour les utilisateurs étrangers.

Au-delà de ce cas, l’affaire met en lumière un biais structurel dans l’industrie de l’intelligence artificielle. Les benchmarks, largement utilisés par les médias, les investisseurs et les utilisateurs pour évaluer les performances, sont le plus souvent produits par les entreprises elles-mêmes.

En pratique, les éditeurs sélectionnent les tests, choisissent les concurrents inclus dans les comparaisons et déterminent les indicateurs mis en avant. Le résultat s’apparente alors moins à une évaluation indépendante qu’à un exercice d’auto-notation.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *