OpenAI, la société mère de ChatGPT, a donné son premier aperçu public officiel du DALL-E 3, son dernier modèle de génération d’images. Lancé mercredi lors d’un petit événement destiné aux journalistes, DALL-E 3 est présenté comme un outil qui comprend parfaitement les invites textuelles complexes et produit des images pour les faire correspondre en complexité.
Comme un nouvelle page d’informations à propos de DALL-E 3 sur le site Web d’OpenAI, “les systèmes modernes de conversion texte-image ont tendance à ignorer les mots ou les descriptions, obligeant les utilisateurs à apprendre l’ingénierie rapide. DALL-E 3 représente un pas en avant dans notre capacité à générer des images qui respectez exactement le texte que vous fournissez.
Les images possibles d’une version en cours de DALL-E 3 étaient divulgué sur Discord plus tôt cet été, et ceux-ci ont montré un énorme potentiel dans le sens décrit dans l’aperçu de presse. Le fuyard a affirmé avoir donné à DALL-E 3 la longue invite “peinture d’un bouffon rose donnant un high five à un panda lors d’une compétition cycliste. Les vélos sont en fromage et le sol est très boueux. Ils conduisent dans une forêt brumeuse. Le panda est en colère. » L’image résultante a été carrément étonnant par sa fidélité à cette demande.
Les générateurs d’images comme Midjourney et Stable Diffusion, bien que capables d’imiter le photoréalisme et de produire des représentations d’un large éventail d’objets, de styles et de personnes (avec une certaine controverse qui les accompagne), auront sans aucun doute du mal à produire quelque chose d’aussi complexe.
Ces générateurs d’images, ainsi que les offres précédentes d’OpenAI dans ce domaine, échouent également lorsqu’on leur demande de produire des images contenant du texte – produisant généralement au mieux des absurdités tronquées et au pire des malapropismes hilarants. DALL-E 3 me semble bien plus capable d’incorporer du texte cohérent dans des images, comme le démontre un dessin animé posté sur X par Sam Altman, PDG d’OpenAI.
Open AI indique qu’il intégrera DALL-E 3 directement dans ChatGPT et implique fortement que le chatbot passera d’un modèle à un autre, en fonction du contenu de l’invite. ChatGPT, autrefois un simple robinet convivial pour les sorties de texte du modèle GPT-3.5, évolue rapidement : intégrer des plugins tiers avec la possibilité d’extraire du texte d’autres sources, y compris le Web. Cette décision diversifie davantage les capacités de ChatGPT, élargissant la définition déjà tendue du terme « chatbot ».
DALL-E 3 « sera disponible pour tous les utilisateurs de ChatGPT+ au cours des prochaines semaines », selon Altman. Le site Web d’OpenAI indique que tous les clients ChatGPT Plus et ChatGPT Enterprise pourront l’utiliser « début octobre » et qu’OpenAI ne fera aucune réclamation de droits d’auteur sur les sorties du modèle. Cependant, si vous envisagez de générer quelque chose avec DALL-E 3 et que vous le protégez ensuite vous-même, c’est une toute autre boîte de Pandore.
