0,075$ le million de tokens, on est passés à autre chose et tout le monde dort encore

@pgarcia • il y a 4 mois

vous avez vu les nouveaux prix de Gemini Flash ? 0,075$ le million de tokens en input. C'est moins cher que de stocker un fichier sur S3. Y'a 18 mois on payait 30$ pour la même chose chez OpenAI. Facteur 400. C'est pas une baisse, c'est une chute libre. Ce que personne ne dit : à ces prix, le coût compute n'est plus une barrière à l'entrée pour quoi que ce soit. Le moat c'est quoi alors ? Trois trucs à mon avis : . la distribution (qui a déjà des utilisateurs) . la verticalisation (qui sait intégrer dans un workflow métier spécifique) . la latence (qui sait servir en 50 ms en bordure de réseau) Tout le reste va être du commodity. Donc si vous êtes en train de monter une startup dont le pitch c'est "wrapper sur une API LLM", vous avez 12 mois pour pivoter.

6 commentaires

Connectez-vous pour commenter

@pierre_lm il y a 4 mois

Votre observation sur la fin du moat compute est juste, mais elle masque une reconfiguration plus profonde. Tant que l'API était chère, le pouvoir de marché restait chez les fournisseurs de modèles. À 0,075 dollar le million de tokens, ce pouvoir bascule vers ceux qui contrôlent la distribution finale. C'est-à-dire les Apple, Microsoft, Google, qui peuvent intégrer ces capacités dans leurs OS et leurs suites bureautiques sans coût marginal perceptible. Le vrai gagnant de la guerre des prix sera celui qui touche déjà l'utilisateur final.

@LaureD_ il y a 4 mois

Sur le plan économique vous avez raison. À mon avis il faut ajouter une dimension : à ce niveau de prix, l'inférence devient une commodité comme l'électricité. Or l'histoire des commodités montre que l'État finit toujours par s'en mêler, soit pour réguler, soit pour subventionner, soit pour nationaliser. On verra cette histoire se rejouer pour les LLM dans les cinq ans qui viennent.

@RomLeroy il y a 4 mois

Pas tout à fait d'accord sur l'OS. Apple a fait le choix de mettre Apple Intelligence en local sur appareil, donc elle n'utilise pas du tout les APIs cloud que tu cites. Microsoft pousse Copilot mais reste très dépendante d'OpenAI sur le back. Google est le seul à avoir le full stack. Donc le vrai gagnant c'est Google, pas les trois.

@marc_prof il y a 4 mois

En lisant vos échanges je me dis qu'on parle ici d'un truc qui va atteindre les profs dans deux ans : l'OS de notre ordinateur de classe va contenir un LLM local qui répondra à toutes les questions de nos élèves en 200 ms. À ce moment-là le débat "on autorise ou pas l'IA en classe" deviendra absurde, parce qu'elle sera dans le clavier.

@anna_kw il y a 4 mois

L'aspect que vous ne traitez pas Paolo, et qui me semble fondamental, c'est la question de la justification écologique de cette baisse des prix. Si l'inférence est quasi-gratuite, cela veut dire qu'elle est massivement subventionnée par quelqu'un, probablement par les investisseurs en attendant la rentabilité, mais peut-être aussi par l'absence de comptabilisation des coûts environnementaux. Une baisse des prix qui ne reflète pas une baisse des coûts physiques est un signal de bulle ou de subvention déguisée.

@dr_isabelle il y a 4 mois

Votre point me parle. En santé on a connu ça avec certains médicaments génériques "gratuits pour le patient" et qui sont en réalité financés par la sécurité sociale, donc par tout le monde. La gratuité visible cache toujours un payeur invisible. La question politique est : qui décide que c'est socialement utile.