Le graphique de cette semaine n’est pas seulement une illustration du progrès method.
Il révèle l’économie du futur de l’intelligence artificielle.
Parce que pour que l’IA devienne quelque selected que tout le monde utilise, peu importe la qualité des modèles ou le montant d’argent que les entreprises lèvent pour les construire.
Cela dépendra du coût de leur fonctionnement.
Jusqu’à présent, l’IA s’appuyait principalement sur les grands fournisseurs de cloud et sur le calcul centralisé. Cela a du sens lorsque l’inférence – l’acte d’utiliser un modèle d’IA – coûte cher. Parce que chaque requête adressée à un grand modèle de langage entraîne un coût réel, et ce coût détermine tout, depuis la conception des produits jusqu’à leur tarification.
Mais le graphique d’aujourd’hui montre que quelque selected de très différent se profile à l’horizon.
Inférence à zéro ?
Comme vous pouvez le voir sur ce graphique, les coûts d’inférence ne se contentent pas de diminuer…
Supply : Epoch AI
Ils s’effondrent.
Selon les estimations d’Epoch AI, un seul GPU grand public d’un prix d’environ 2 500 {dollars} peut désormais exécuter des modèles qui correspondent aux performances des systèmes frontières d’environ six à 12 mois plus tôt.
Pour être clair, nous parlons du sort de matériel que tout le monde peut acheter sur un ordinateur de bureau ou un ordinateur transportable.
Si l’IA de pointe peut fonctionner sur du matériel grand public d’ici un an et que des modèles ouverts suivent quelques mois après, l’inférence cessera d’être uncommon pour la plupart des purposes.
Et une fois que l’inférence cesse d’être uncommon, le logiciel change.
Les produits n’auront plus besoin d’être conçus autour de budgets symboliques. Les fonctionnalités d’IA ne devront pas être limitées à certains utilisateurs. Et l’intelligence deviendra quelque selected que les logiciels exécutent localement, et non quelque selected pour lequel ils devront demander l’autorisation à un serveur distant.
Vous pourriez voir les premiers signes de ce changement au CES ce mois-ci.
Jensen Huang a passé beaucoup moins de temps à parler des expenses de travail cloud que des systèmes qui fonctionnent en continu dans le monde physique, comme les robots, les machines autonomes et même les usines. Ces systèmes ne peuvent pas attendre sur des serveurs distants ni payer pour chaque décision qu’ils prennent. Ils ont besoin de renseignements locaux, à tout second.
Lenovo a montré la même idée appliquée à l’informatique personnelle. L’objectif de l’entreprise est de distribuer l’intelligence entre les appareils afin que l’IA puisse fonctionner en continu sans dépendre d’un accès fixed au cloud.
La nouvelle plateforme Qira de Lenovo n’est pas qu’un easy chatbot. Il est conçu pour agir comme une couche « d’intelligence ambiante » multi-appareils, apprenant le comportement de l’utilisateur et agissant sans intervention constante de l’utilisateur.
Ce sort d’IA toujours disponible ne fonctionne que lorsque l’inférence est suffisamment bon marché pour être exécutée en continu sur l’appareil lui-même.
Et cela ne fonctionne pas du tout si l’inférence reste coûteuse.
Heureusement, le graphique d’aujourd’hui nous indique que l’inférence devient moins chère plus rapidement que la plupart des gens ne le pensent.
Pourtant, de nombreuses évaluations et stratégies technologiques supposent encore que l’IA restera dans le cloud et que chaque utilisation restera mesurée et coûteuse.
Cette hypothèse favorise les entreprises qui possèdent les plus grands centres de données.
Et cela pourrait rester vrai pour un petit nombre de systèmes massifs, comme la recherche à grande échelle ou l’analyse d’entreprise. Mais pour la plupart des purposes, la possibilité d’exécuter des modèles puissants localement – sur votre propre matériel et quelques mois seulement après leur sortie – démocratisera radicalement l’accès à une IA puissante.
Cela signifie que les entreprises peuvent utiliser l’IA sans payer de frais de cloud et que les développeurs peuvent travailler avec des données privées sans les envoyer à un tiers.
À l’instar des débuts d’Web, cela abaisse les barrières à l’entrée. Cela donnera aux petites équipes la possibilité de rivaliser en intégrant l’IA directement dans leurs produits au lieu de la louer à quelqu’un d’autre.
Le graphique d’aujourd’hui reflète cette évolution.
Voici mon avis
Une fois que les coûts d’inférence seront proches de zéro, l’IA deviendra une partie intégrante des logiciels, de la même manière que la mémoire et le stockage sont devenus la norme en informatique il y a des décennies.
Aux débuts de l’informatique, chaque octet de mémoire et chaque seconde de traitement coûtait cher. À mesure que ces coûts diminuaient, d’abord avec les ordinateurs personnels, puis avec le cloud, de tout nouveaux varieties de logiciels sont devenus possibles.
La même selected se produit aujourd’hui avec l’IA.
À mesure que l’inférence devient moins chère, l’IA puissante quittera les centres de données pour s’intégrer aux produits quotidiens. Et les développeurs n’auront plus besoin d’un accès spécial ni de budgets massifs pour l’utiliser. Ils créeront simplement des logiciels dotés d’une intelligence intégrée.
Bien sûr, cela remet en query une hypothèse de longue date sur la façon dont l’IA gagne de l’argent.
Alors que l’exploitation du renseignement ne coûte plus cher, cela n’a plus de sens de facturer les gens à chaque fois qu’ils l’utilisent. Ce qui signifie que la valeur passe de la vente de l’accès à l’IA à la création de meilleurs logiciels avec celle-ci.
Le graphique d’aujourd’hui montre que nous pourrions bientôt atteindre ce tournant.
Et je ne pourrais pas être plus excité à ce sujet. Parce que c’est ainsi que l’IA devient véritablement universelle.
Salutations,
Ian KingStratège en chef, Banyan Hill Publishing
Observe de l’éditeur : nous serions ravis d’avoir de vos nouvelles !
Si vous souhaitez partager vos réflexions ou strategies sur le Day by day Disruptor, ou s’il y a des sujets spécifiques que vous souhaiteriez que nous abordions, envoyez simplement un e-mail à dailydisruptor@banyanhill.com.
Ne vous inquiétez pas, nous ne révélerons pas votre nom complet si nous publions une réponse. Alors n’hésitez pas à commenter !

















