Cette année, Google I / S 2025 Avait un objectif: l’intelligence artificielle.
Nous avons déjà couvert toutes les plus grandes nouvelles à sortir de la conférence annuelle des développeurs: un nouvel outil de génération de vidéo AI appelée Flow. UN Plan d’abonnement à 250 $ AI Ultra. Des tonnes de De nouveaux modifications aux Gémeaux. UN Fonction d’essai de magasinage virtuel. Et de manière critique, le lancement de l’outil de recherche Mode AI à tous les utilisateurs Aux États-Unis.
Pourtant, sur près de deux heures de leaders de Google parlant de l’IA, un mot que nous n’avons pas entendu était “Hallucination”.
Les hallucinations restent l’une des plus têtues et Concernant les problèmes avec les modèles d’IA. Le terme fait référence à des faits et des inexactitudes inventés que les modèles en grande langue «hallucinent» dans leurs réponses. Et selon les mesures des grandes métriques des marques de l’IA, Les hallucinations s’aggravent – avec certains modèles hallucinant plus de 40% du temps.
Mais si vous regardiez Google I / O 2025, vous ne sauriez pas que ce problème existait. On pourrait penser que des modèles comme Gemini ne hallucine jamais; Vous seriez certainement surpris de voir l’avertissement annexé à chaque aperçu de Google AI. (“Les réponses de l’IA peuvent inclure des erreurs”.)
Vitesse d’éclairage mashable
Le plus proche Google est venu à reconnaître le problème d’hallucination est survenu lors d’un segment de la présentation sur le mode AI et des capacités de recherche profonde de Gemini. Le modèle vérifierait son propre travail avant de fournir une réponse, nous a-t-on dit – mais sans plus de détails sur ce processus, cela ressemble plus à l’aveugle menant les aveugles qu’une véritable vérification des faits.
Pour les sceptiques de l’IA, le degré de confiance que la Silicon Valley a dans ces outils semble divorcé des résultats réels. Les vrais utilisateurs remarquent lorsque les outils d’IA échouent à des tâches simples comme le comptage, la vérification orthographique ou la réponse à des questions comme “L’eau se figera-t-elle à 27 degrés Fahrenheit?“
Google était impatient de rappeler aux téléspectateurs que son nouveau modèle d’IA, Gemini 2.5 Pro, se trouve au sommet de nombreux classements de l’IA. Mais en ce qui concerne la véracité et la capacité de répondre à des questions simples, les chatbots d’IA sont classés sur une courbe.
Gemini 2.5 Pro est le modèle d’IA le plus intelligent de Google (selon Google), mais il scores juste 52,9% Sur la fonctionnalité SIMPEQA Benchmarking Test. Selon un Document de recherche OpenAIle test SimpleQA est “une référence qui évalue La capacité des modèles de langue à répondre à des questions courtes et à la recherche de faits.“(Je mets l’accent sur le nôtre.)
Un représentant de Google a refusé de discuter de l’indice de référence SimpleQA, ou hallucinations en général – mais nous a pointés vers officiels de Google Explicateur sur le mode IA et les aperçus de l’IA. Voici ce qu’il a à dire:
[AI Mode] Utilise un grand modèle de langue pour aider à répondre aux requêtes et il est possible que, dans de rares cas, il puisse parfois présenter des informations imprécis, qui est communément appelée «hallucination». Comme pour les aperçus de l’IA, dans certains cas, cette expérience peut mal interpréter le contenu Web ou manquer le contexte, comme cela peut se produire avec n’importe quel système automatisé de recherche …
Nous utilisons également de nouvelles approches avec les capacités de raisonnement du modèle pour améliorer la factualité. Par exemple, en collaboration avec les équipes de recherche de Google Deepmind, nous utilisons l’agent d’apprentissage en renforcement (RL) dans notre formation personnalisée pour récompenser le modèle pour générer des déclarations qu’il connaît est plus susceptible d’être exacte (non hallucinée) et également soutenue par les intrants.
Google est-il mal d’être optimiste? Les hallucinations peuvent encore s’avérer un problème résoluble, après tout. Mais il semble de plus en plus clair à partir de la recherche que les hallucinations de LLMS ne sont pas un problème résoluble tout de suite.
Cela n’a pas empêché des entreprises comme Google et Openai de sprinter L’ère de la recherche AI – et cela est probablement une époque remplie d’erreurs, à moins que nous ne soyons ceux qui hallucinaient.
