Graphique de la semaine : l'IA est une boîte noire - News

Une selected étrange s’est produite la semaine dernière.

Anthropic a été contraint de mettre hors ligne ses nouveaux modèles d’IA quelques jours seulement après leur sortie.

Les nouveaux systèmes Fable 5 et Mythos 5 de la société ont été conçus pour être parmi les modèles d’IA les plus puissants jamais commercialisés. Mais peu de temps après le lancement, les chercheurs ont découvert des moyens de contourner certaines mesures de sécurité intégrées aux modèles.

Les responsables gouvernementaux se sont rapidement impliqués alors que les craintes se répandaient que ces systèmes pourraient devenir de puissantes armes de cybersécurité entre de mauvaises mains.

Peut-être que ces préoccupations étaient justifiées, ou peut-être pas.

Mais pour moi, ils soulèvent une query évidente que peu de gens se posent.

Remark pourrait-on le savoir ?

Qu’y a-t-il à l’intérieur de la boîte ?

Les systèmes d’IA modernes ne ressemblent pas aux logiciels traditionnels.

Les ingénieurs ne s’assoient pas et n’écrivent pas de lignes de code leur indiquant exactement remark résoudre un problème.

Au lieu de cela, les chercheurs entraînent ces systèmes puis observent leur comportement.

Le résultat est ce que de nombreux chercheurs appellent une boîte noire.

Nous pouvons voir ce qui entre et ce qui type.

Mais ce qui se passe entre les deux est souvent beaucoup plus difficile à expliquer.

C’est pourquoi des entreprises comme Anthropic consacrent autant de temps à étudier l’interprétabilité de l’IA, ou la science permettant de comprendre remark ces systèmes arrivent à leurs conclusions.

Et cela nous amène au graphique de cette semaine.

Parce qu’un groupe de chercheurs a récemment réalisé une étrange expérience.

Ils ont secrètement modifié l’état interne d’un modèle d’IA. Ils ont ensuite demandé si le modèle pouvait détecter que quelque selected avait changé.

Picture : Uzay Macar et Li Yang

Ce tableau peut paraître compliqué, mais l’idée de base est easy.

Les chercheurs ont injecté des informations directement dans le traitement interne d’un modèle d’IA, puis ont testé si celui-ci pouvait faire la différence entre ces injections et son processus de réflexion regular.

Le graphique evaluate trois variations du même modèle.

Le premier est le modèle de base, le système d’IA brut avant qu’il ne reçoive une formation supplémentaire.

Le second est le modèle Instruct, qui a été formé pour se comporter davantage comme les assistants IA utiles avec lesquels la plupart des gens interagissent aujourd’hui.

La troisième est une model ablitérée du modèle, dans laquelle certains comportements de refus et de sécurité ont été supprimés.

La ligne bleue montre la fréquence à laquelle le modèle a détecté correctement un changement réel, tandis que la ligne orange montre la fréquence à laquelle il a faussement affirmé que quelque selected avait changé alors que rien ne s’était réellement produit.

Et les résultats sont surprenants.

Le modèle de base a mal fonctionné. Lorsque les chercheurs modifiaient secrètement son traitement interne, ils ne parvenaient souvent pas à faire la différence entre un changement réel et une fausse alarme.

Mais le modèle Instruct a bien mieux fonctionné.

Au cours du processus de formation supplémentaire, le modèle semble avoir développé une capacité à reconnaître quand quelque selected d’inhabituel s’est produit au sein de son propre traitement.

Et dans plusieurs cas, le modèle Abliterated a été encore plus performant.

En d’autres termes, la suppression de certains comportements de sécurité et de refus de l’IA a en fait amélioré la capacité du modèle à détecter ce qui se passait à l’intérieur.

Cela ne signifie pas que le modèle est devenu conscient ou conscient de lui-même.

Vous pouvez le comparer à un serveur informatique qui détecte quand quelqu’un a falsifié sa mémoire. Le serveur n’est au courant de rien, mais il peut quand même reconnaître quand quelque selected d’inhabituel se produit.

Les chercheurs pensent que quelque selected de similaire s’est produit ici.

Plus essential encore, ils pensent que de telles capacités pourraient éventuellement nous aider à mieux comprendre ce qui se passe dans les systèmes d’IA avancés.

Après tout, ces modèles ont accès à des informations qui restent largement cachées aux personnes qui les étudient.

Ce qui signifie que les chercheurs pourraient éventuellement en apprendre davantage sur les systèmes d’IA avancés en interrogeant les systèmes eux-mêmes.

Cela peut sembler contre-intuitif.

Mais cela donnerait aux chercheurs quelque selected qu’ils n’ont jamais vraiment eu auparavant.

Une fenêtre sur ce qui se passe à l’intérieur du modèle lui-même.

Voici mon avis

L’objectif principal de l’industrie de l’IA a été de créer des modèles plus performants.

Mais un autre défi devient pressing.

Les comprendre.

La controverse entourant les derniers modèles d’Anthropic montre pourquoi nous devons nous attaquer à cette query le plus tôt attainable.

Parce que c’est une selected de construire un système d’IA puissant. C’est tout autre selected de créer une nouvelle forme d’intelligence tout en ne comprenant que partiellement son fonctionnement.

Alors voici ma query pour vous :

Si les futurs systèmes d’IA deviennent trop complexes pour que les humains puissent les comprendre pleinement par eux-mêmes, feriez-vous confiance à l’IA pour vous aider à expliquer ce qui se passe dans d’autres modèles d’IA ?

Ou cela ressemble-t-il à demander au renard de garder le poulailler ?

J’aimerais entendre ce que vous pensez.

Faites-le-moi savoir à dailydisruptor@banyanhill.com.

Nous ne révélerons pas votre nom complet si nous publions une réponse, alors n’hésitez pas à partager votre opinion honnête.

Salutations,

Ian KingStratège en chef, Banyan Hill Publishing

Source link

Graphique de la semaine : l’IA est une boîte noire

La Cour suprême bloque le contrôle des armes à feu – LIRE EN ENTIER

Pourquoi le Time-to-Cash apparaît comme une mesure clé pour les plateformes numériques

Related Posts

Principal Financial Group (PFG) dispose d’un moteur de revenu de retraite et de répartition plus important qu’une simple étiquette d’assureur

L’IA débloque les archives perdues de l’histoire

Voici ce qui a changé dans la nouvelle déclaration

Wabtec (WAB) a une histoire de plate-forme de marché secondaire et de modernisation ferroviaire plus grande qu’un commerce de cycles de fret

L’acheteur moyen de SpaceX après l’introduction en bourse est presque sous l’eau après deux jours de baisse

Les locations d’entrée de gamme disparaissent : voici comment les propriétaires peuvent combler le vide

Pourquoi le Time-to-Cash apparaît comme une mesure clé pour les plateformes numériques

Expérience de stage chez My Legal Pal (en ligne)

Leave a Reply Cancel reply

Nurix Therapeutics, Inc. (NRIX) discute d’une collaboration stratégique pour le développement et la commercialisation du Bexobrutideg pour les maladies médiées par BTK

Le PDG de Nvidia tente de raccourcir son propre calendrier quantique

Fonds commun de placement PPFAS parmi 15 AMC pour offrir un verrouillage volontaire des folios. Voici comment fonctionne la règle de Sebi

Une chaîne de magasins de meubles de 69 ans dépose le bilan (chapitre 11)

« Terrible, horrible milliardaire » : les opposants aux centres de données rôtissent Kevin O’Leary pour une revendication sauvage

2025 Liste de toutes les sociétés Russell 2000

Un prêt bancaire enregistré peut-il devenir de « l’argent inexpliqué » en vertu de l’article 69A ? L’ITAT de Mumbai dit non

Parier sur le boom des voyages en Inde ? Motilal Oswal considère TBO Tek et Ixigo comme les principaux bénéficiaires

Les actionnaires de Capital B approuvent un plan de financement massif pour la stratégie de trésorerie Bitcoin

Juneteenth évoque la résilience alors que Trump continue la guerre contre l’histoire des Noirs

Singapour peut-elle devenir le centre neutre de l’IA en Asie ? Des entreprises américaines et chinoises s’installent dans le pays

Principal Financial Group (PFG) dispose d’un moteur de revenu de retraite et de répartition plus important qu’une simple étiquette d’assureur

CATÉGORIES

DERNIÈRES MISES À JOUR

Welcome Back!

Retrieve your password