À mesure que l’IA générative passe de la phase d’entraînement massif des modèles à leur utilisation à grande échelle, une idée répandue veut que les besoins en puissance de calcul diminuent. Le raisonnement est simple : l’inférence étant moins coûteuse que l’entraînement, l’IA pourrait s’appuyer davantage sur des puces spécialisées, sur l’edge computing et sur des centres de données plus petits.
Nous sommes convaincus que le basculement vers l’inférence ne réduira pas la demande globale de calcul. Au contraire, l’IA générative entrera dans une phase où les usages, le post-entraînement et le raisonnement avancé feront croître durablement les besoins en infrastructures, en puces et en énergie.
En 2026, l’inférence représentera environ deux tiers de la puissance de calcul IA, contre un tiers en 2023. Le marché des puces optimisées pour l’inférence dépassera 50 milliards $US.
Cependant, cette croissance ne remplace pas le calcul lourd : elle s’y ajoute. La multiplication des requêtes d’IA par des milliards d’utilisateurs compense largement la moindre consommation par requête.
La course aux modèles toujours plus grands s’est heurtée à des limites : rareté des données et rendements décroissants. Le pré-entraînement ralentit, mais ne disparaît pas. Surtout, la demande en calcul se déplace vers d’autres phases plus gourmandes.
L’amélioration des modèles passe désormais massivement par le post-entraînement (fine-tuning, distillation, feedback humain ou IA, données synthétiques).
Ces techniques sont devenues standard et peuvent consommer jusqu’à 30 fois plus de calcul que le pré-entraînement initial, maintenant un fort besoin en GPU avancés et en mémoire HBM.
Les techniques de long thinking (chain-of-thought, recherche, vote majoritaire) améliorent la précision des modèles mais peuvent consommer jusqu’à 100 fois plus de calcul qu’une inférence simple. Ces pratiques, déjà largement utilisées, annulent en partie les gains d’efficacité algorithmique.
Contrairement aux scénarios de décentralisation rapide, la majorité du calcul IA restera concentrée dans de grands centres de données utilisant des puces coûteuses et énergivores :
Si le pré-entraînement reste concentré, l’inférence et le post-entraînement peuvent être répartis géographiquement. Cela favorise :
Les smartphones et PC équipés de NPU permettent des inférences simples, mais restent insuffisants pour le raisonnement avancé ou le post-entraînement. En 2026, l’essentiel du calcul IA restera dans le cloud ou sur des infrastructures d’entreprise spécialisées.
Les entreprises investissent de plus en plus dans des infrastructures IA locales pour des raisons de coûts, de souveraineté et de personnalisation. Ce marché hybride cloud/on-premise devrait dépasser 50 milliards $US dès 2026.
Le passage de l’IA générative à une phase dominée par l’inférence ne marque pas un recul des besoins en calcul, mais une recomposition vers des usages plus complexes et plus intensifs. Le ralentissement du pré-entraînement est largement compensé par le post-entraînement, le raisonnement avancé et l’explosion des usages quotidiens.
À court et moyen terme, l’IA reposera donc sur :
Une rupture technologique pourrait, à terme, réduire ces besoins. Ce scénario nous semble peu crédible à l’horizon 2026 : plus d’IA continuera de signifier plus de calcul, plus d’infrastructures et plus d’énergie.