Une selected étrange s’est produite la semaine dernière.
Anthropic a été contraint de mettre hors ligne ses nouveaux modèles d’IA quelques jours seulement après leur sortie.
Les nouveaux systèmes Fable 5 et Mythos 5 de la société ont été conçus pour être parmi les modèles d’IA les plus puissants jamais commercialisés. Mais peu de temps après le lancement, les chercheurs ont découvert des moyens de contourner certaines mesures de sécurité intégrées aux modèles.
Les responsables gouvernementaux se sont rapidement impliqués alors que les craintes se répandaient que ces systèmes pourraient devenir de puissantes armes de cybersécurité entre de mauvaises mains.
Peut-être que ces préoccupations étaient justifiées, ou peut-être pas.
Mais pour moi, ils soulèvent une query évidente que peu de gens se posent.
Remark pourrait-on le savoir ?
Qu’y a-t-il à l’intérieur de la boîte ?
Les systèmes d’IA modernes ne ressemblent pas aux logiciels traditionnels.
Les ingénieurs ne s’assoient pas et n’écrivent pas de lignes de code leur indiquant exactement remark résoudre un problème.
Au lieu de cela, les chercheurs entraînent ces systèmes puis observent leur comportement.
Le résultat est ce que de nombreux chercheurs appellent une boîte noire.
Nous pouvons voir ce qui entre et ce qui type.
Mais ce qui se passe entre les deux est souvent beaucoup plus difficile à expliquer.
C’est pourquoi des entreprises comme Anthropic consacrent autant de temps à étudier l’interprétabilité de l’IA, ou la science permettant de comprendre remark ces systèmes arrivent à leurs conclusions.
Et cela nous amène au graphique de cette semaine.
Parce qu’un groupe de chercheurs a récemment réalisé une étrange expérience.
Ils ont secrètement modifié l’état interne d’un modèle d’IA. Ils ont ensuite demandé si le modèle pouvait détecter que quelque selected avait changé.
Picture : Uzay Macar et Li Yang
Ce tableau peut paraître compliqué, mais l’idée de base est easy.
Les chercheurs ont injecté des informations directement dans le traitement interne d’un modèle d’IA, puis ont testé si celui-ci pouvait faire la différence entre ces injections et son processus de réflexion regular.
Le graphique evaluate trois variations du même modèle.
Le premier est le modèle de base, le système d’IA brut avant qu’il ne reçoive une formation supplémentaire.
Le second est le modèle Instruct, qui a été formé pour se comporter davantage comme les assistants IA utiles avec lesquels la plupart des gens interagissent aujourd’hui.
La troisième est une model ablitérée du modèle, dans laquelle certains comportements de refus et de sécurité ont été supprimés.
La ligne bleue montre la fréquence à laquelle le modèle a détecté correctement un changement réel, tandis que la ligne orange montre la fréquence à laquelle il a faussement affirmé que quelque selected avait changé alors que rien ne s’était réellement produit.
Et les résultats sont surprenants.
Le modèle de base a mal fonctionné. Lorsque les chercheurs modifiaient secrètement son traitement interne, ils ne parvenaient souvent pas à faire la différence entre un changement réel et une fausse alarme.
Mais le modèle Instruct a bien mieux fonctionné.
Au cours du processus de formation supplémentaire, le modèle semble avoir développé une capacité à reconnaître quand quelque selected d’inhabituel s’est produit au sein de son propre traitement.
Et dans plusieurs cas, le modèle Abliterated a été encore plus performant.
En d’autres termes, la suppression de certains comportements de sécurité et de refus de l’IA a en fait amélioré la capacité du modèle à détecter ce qui se passait à l’intérieur.
Cela ne signifie pas que le modèle est devenu conscient ou conscient de lui-même.
Vous pouvez le comparer à un serveur informatique qui détecte quand quelqu’un a falsifié sa mémoire. Le serveur n’est au courant de rien, mais il peut quand même reconnaître quand quelque selected d’inhabituel se produit.
Les chercheurs pensent que quelque selected de similaire s’est produit ici.
Plus essential encore, ils pensent que de telles capacités pourraient éventuellement nous aider à mieux comprendre ce qui se passe dans les systèmes d’IA avancés.
Après tout, ces modèles ont accès à des informations qui restent largement cachées aux personnes qui les étudient.
Ce qui signifie que les chercheurs pourraient éventuellement en apprendre davantage sur les systèmes d’IA avancés en interrogeant les systèmes eux-mêmes.
Cela peut sembler contre-intuitif.
Mais cela donnerait aux chercheurs quelque selected qu’ils n’ont jamais vraiment eu auparavant.
Une fenêtre sur ce qui se passe à l’intérieur du modèle lui-même.
Voici mon avis
L’objectif principal de l’industrie de l’IA a été de créer des modèles plus performants.
Mais un autre défi devient pressing.
Les comprendre.
La controverse entourant les derniers modèles d’Anthropic montre pourquoi nous devons nous attaquer à cette query le plus tôt attainable.
Parce que c’est une selected de construire un système d’IA puissant. C’est tout autre selected de créer une nouvelle forme d’intelligence tout en ne comprenant que partiellement son fonctionnement.
Alors voici ma query pour vous :
Si les futurs systèmes d’IA deviennent trop complexes pour que les humains puissent les comprendre pleinement par eux-mêmes, feriez-vous confiance à l’IA pour vous aider à expliquer ce qui se passe dans d’autres modèles d’IA ?
Ou cela ressemble-t-il à demander au renard de garder le poulailler ?
J’aimerais entendre ce que vous pensez.
Faites-le-moi savoir à dailydisruptor@banyanhill.com.
Nous ne révélerons pas votre nom complet si nous publions une réponse, alors n’hésitez pas à partager votre opinion honnête.
Salutations,
Ian KingStratège en chef, Banyan Hill Publishing















