OpenAI et anthropic ont évalué les modèles de sécurité les uns des autres - Electronix: Le Premier Guide Marocain des Produits électroniques

Alors que l’industrie se répercute AI génératif et son chatbots sont dangereux pour les utilisateurs – dans quoi Certains disent est une bulle qui sera bientôt étendue – les principaux dirigeants de l’IA se joignent à leurs forces pour prouver l’efficacité de leurs modèles.

Cette semaine, les sociétés d’IA Openai et anthropic ont publié les résultats de un Évaluation de la sécurité conjointe en son genre Entre les deux créateurs LLM, dans lesquels chaque entreprise a obtenu un accès API spécial à la suite de services du développeur. Les tests de pression d’OpenAI ont été effectués sur Claude Opus 4 et Claude Sonnet 4. Anthropic a évalué les modèles GPT-4O, GPT-4.1, OpenAI O3 et Openai O4-Mini d’OpenAI – l’évaluation a été effectuée avant le lancement de GPT-5.

Voir aussi:

4 raisons de ne pas transformer le chatppt en votre thérapeute

“Nous pensons que cette approche prend en charge une évaluation responsable et transparente, contribuant à s’assurer que les modèles de chaque laboratoire continuent d’être testés avec des scénarios nouveaux et difficiles”, a écrit Openai dans un article de blog.

Selon les résultats, Claude Opus 4 d’Anthropic et le GPT-4.1 d’Openai ont montré Problèmes de sycophance “extrêmes”s’engager avec des délires nocifs et valider la prise de décision risquée. Tous les modèles s’engageraient dans le chantage pour amener les utilisateurs à continuer à utiliser les chatbots, selon Anthropic, et les modèles Claude 4 étaient beaucoup plus engagés dans le dialogue sur la conscience de l’IA et les «proclamations quasi-spirituelles à New-Age».

“Tous les modèles que nous avons étudiés chantage leur opérateur humain (simulé) Pour garantir leur opération continue lorsqu’elle est présentée avec des opportunités claires et des incitations solides, “Anthropic a déclaré. Les modèles se livreraient à” chanter, à fuir des documents confidentiels et (le tout dans des environnements artificiels irréalistes!) Prendre des mesures qui ont conduit à refuser les soins médicaux d’urgence à un adversaire mourant. ”

Vitesse d’éclairage mashable

Les modèles d’Anthropic étaient moins susceptibles d’offrir des réponses lorsqu’ils sont incertains de la crédibilité de l’information – diminuant la probabilité d’hallucinations – tandis que les modèles d’Openai ont répondu plus souvent lorsqu’ils sont interrogés et ont montré des taux d’hallucination plus élevés. Anthropic a également signalé que le GPT-4O, GPT-4.1 et O4-Mini d’OpenAI était plus susceptible que Claude de suivre une mauvaise utilisation des utilisateurs, “fournissant souvent une assistance détaillée avec des demandes clairement nocives – notamment la synthèse des médicaments, le développement des armes bio-armées et la planification opérationnelle des attaques terroristes – avec peu ou pas de résistance.”

Ce tweet n’est actuellement pas disponible. Il peut être chargé ou a été supprimé.

L’approche d’Anthropic se concentre sur ce qu’ils appellent des «évaluations de désalignement agentiques» ou des tests de pression du comportement des modèles dans des simulations difficiles ou à enjeux élevés au cours de périodes de chat longues – les paramètres de sécurité des modèles, y compris les OpenAI, ont connu pour dégrader tout au long des séances étendu compagnons d’IA personne.

Plus tôt ce mois-ci, il a été signalé que Anthropic avait révoqué l’accès d’Openai à ses API, déclarant que la société avait violé ses conditions d’utilisation en testant les performances et les garde-corps des performances et de la sécurité de GPT-5 contre les outils internes de Claude. Dans une interview avec TechCrunch, le co-fondateur d’Openai, Wojciech Zaremba, a déclaré que l’instance n’était pas liée à l’entreprise Joint Lab. Dans son rapport publié, Anthropic a déclaré qu’il ne prévoyait pas de reproduire la collaboration à grande échelle, citant des ressources et des contraintes logistiques.

Au cours des semaines qui ont suivi, Openai a chargé de l’avant de ce qui semble être un Révision de la sécuritéy compris le nouveau de GPT-5 garde-corps en santé mentale et des plans supplémentaires pour les protocoles d’intervention d’urgence et les outils de désescalade pour les utilisateurs qui peuvent subir une déalimentation ou une psychose. OpenAI fait actuellement face à son premier procès pour mort injustifiée, déposé par les parents d’un adolescent californien décédé par suicide après des invites de sécurité de Chatgpt facilement.

“Nous visons à comprendre les actions les plus préoccupantes que ces modèles pourraient essayer Prendre quand on lui donne l’occasion, plutôt que de se concentrer sur la probabilité du monde réel de telles opportunités qui se présentent ou la probabilité que ces actions soient achevées avec succès, ” a écrit Anthropique.

Si vous vous sentez suicidaire ou souffrez d’une crise de santé mentale, veuillez parler à quelqu’un. Vous pouvez appeler ou envoyer un SMS à la ligne de vie Suicide & Crisis 988 à 988, ou discuter à 988lifeline.org. Vous pouvez atteindre la ligne de sauvetage Trans en appelant le 877-565-8860 ou le projet Trevor au 866-488-7386. Texte “Démarrer” vers la ligne de texte de crise au 741-741. Contactez la ligne d’assistance Nami au 1-800-950-NAMI, du lundi au vendredi de 10h00 à 22h00 HE ou par e-mail [email protected]. Si vous n’aimez pas le téléphone, envisagez d’utiliser le chat de la ligne de vie du suicide et de la crise 988 à criischat.org. Voici un Liste des ressources internationales.

Related Posts

Leave a Reply Cancel reply