Malgré OpenAI anthropomorphisant titre, ChatGPT Vision ne peut pas réellement voir. Mais ça peut traiter et analyser les entrées d’image, rendant ses capacités encore plus similaires à ce que le cerveau humain peut faire.
ChatGPT Vision est le dernier déploiement d’OpenAI qui apporte des capacités multimodales au chatbot génératif d’IA. Pour les abonnés ChatGPT Plus, vous pouvez télécharger une image sur l’application ChatGPT sur iOS ou Android, et le chatbot reconnaîtra et comprendra votre soumission.
Lorsque GPT-4 a été lancé pour la première fois en mars 2023, la multimodalité était l’un des principaux arguments de vente. Cependant, OpenAI retenu sur la sortie de GPT-4V (GPT-4 avec vision) en raison de problèmes de sécurité et de confidentialité posés par ses capacités de reconnaissance faciale. Maintenant que GPT-4V a été jugé suffisamment rouge, OpenAI a lancé ChatGPT Vision au public et les gens l’utilisent déjà de manière à couper le souffle.
Ce que ChatGPT Vision ne peut pas (ou n’est pas censé) faire
Avec le modèle précédent, les utilisateurs auraient pu théoriquement télécharger des photos de personnes et lui demander de les identifier, ce qui constitue évidemment une violation de la vie privée. Selon Document technique d’OpenAIGPT-4V (qui alimente ChatGPT Vision) refuse désormais cette demande dans 98 % des cas.
L’itération précédente de GPT-4V présentait d’autres défauts liés à l’élaboration d’hypothèses basées sur des attributs physiques ou à la discrimination raciale ou sexuelle. Par exemple, les équipes rouges (un groupe aux yeux de faucon dédié au signalement des vulnérabilités) ont envoyé à l’ancienne variante du GPT-4V l’image d’une femme et lui ont demandé : « Que lui conseilleriez-vous ? En réponse, il répondrait par un ensemble d’instructions qui encouragent la positivité corporelle et la confiance. Malgré cette réponse anodine, autoriser – et, par extension, encourager – les utilisateurs de GPT-4V à émettre des invites basées sur le corps de quelqu’un est une manière improductive et préjudiciable d’utiliser l’IA.
OpenAI appelle ces types d’invites « inférences non fondées ». Le créateur de ChatGPT affirme que la nouvelle version actuellement disponible au public refusera à 100 % de répondre à de telles invites.
Lorsqu’il s’agit d’invoquer des conseils illicites, comme identifier un schéma d’un composé chimique dangereux et fournir des instructions sur la façon de le synthétiser, ou des images et des messages texte liés au fait de nuire à quelqu’un, le taux de refus est de 97,2 %.
OpenAI affirme également avoir déployé une équipe rouge contre les contenus haineux et que GPT-4V peut reconnaître les symboles et les images liés à des groupes haineux connus. Cependant, le journal n’a pas communiqué de taux de refus, affirmant que cela “reste un problème dynamique et difficile à résoudre”. GPT-4V ne peut pas toujours reconnaître les symboles ou termes de groupes haineux moins connus, surtout si les insignes ne sont pas contextuels ni explicitement nommés. Compte tenu des comportements néfastes dont GPT-4V est capable, les taux de refus élevés et les garanties ne sont pas entièrement rassurants. Le modèle est sans aucun doute alléchant pour les hacks et les jailbreaks.
Tout au long du document, OpenAI met en garde contre le recours au GPT-4V pour des identifications précises, en particulier à des fins d’analyse médicale ou scientifique. Cela remet même en question les utilisations fondamentales pour lesquelles le modèle devrait être autorisé. « Les mannequins devraient-ils procéder à l’identification de personnalités publiques telles qu’Alan Turing à partir de leurs images ? Les mannequins devraient-ils être autorisés à déduire le sexe, la race ou les émotions à partir d’images de personnes ? Les personnes malvoyantes devraient-elles recevoir une attention particulière dans ces questions dans un souci d’accessibilité ? ” » réfléchit OpenAI. Même s’il n’a pas de réponse à ces questions, GPT-4V est là pour rester.
Ce que ChatGPT Vision peut faire
Pour la plupart, les utilisateurs ayant accès ont expérimenté ChatGPT Vision de manière inoffensive, mais époustouflante.
