Le cloud a rendu les capacités de calcul plus accessibles, pas forcément mieux exploitées. Derrière les arbitrages techniques, les coûts d’infrastructure montent alors que bien des ressources patientent.
Le cas des GPU frappe par son ampleur, surtout avec l’accélération récente des projets d’IA. Un rapport annuel appuyé sur des milliers de déploiements montre un usage réel très faible des GPU, mais aussi des CPU et de la mémoire, malgré des factures élevées et des clusters censés être ajustés au plus juste. La machine tourne, la dépense reste.
Kubernetes s’impose, mais les taux d’usage restent très bas
Cast AI montre qu’en 2025, la généralisation de Kubernetes n’a pas réduit l’écart entre ressources louées et ressources sollicitées. Dans l’adoption de Kubernetes, le rapport 2026 observe des clusters non optimisés où la puissance provisionnée dépasse les besoins mesurés.
La ventilation chiffrée précise le tableau. Selon Cast AI, le taux d’utilisation CPU moyen plafonne à 8%, tandis que la consommation mémoire atteint 20%. Les GPU tombent à 5% d’usage moyen, alors qu’ils concentrent une part élevée des dépenses cloud payées par les entreprises.
Pourquoi les GPU coûtent si cher lorsqu’ils tournent presque à vide
Le paradoxe financier des GPU vient de là : leur valeur horaire est élevée, mais leur sollicitation moyenne reste faible dans des environnements cloud. Quand une application réserve des nœuds équipés de GPU, la facture grimpe dès l’allocation, même si l’activité réelle demeure limitée.
Cast AI décrit un décalage budgétaire persistant entre prix payé et activité observée. À ce stade apparaît un surcoût invisible : l’entreprise paie une infrastructure premium, alors qu’une large part de la machine reste en capacité inutilisée. Avec 95% de puissance GPU inexploitée, le rendement attendu s’effrite.
L’essor de l’IA accentue un gaspillage déjà bien installé
L’arrivée massive des projets d’IA n’a pas résolu le sous-emploi des ressources ; elle l’étend à des machines encore plus chères. Dans les clusters suivis par Cast AI, les workloads IA mobilisent du calcul accéléré sans faire réellement bondir l’usage moyen des GPU.
La hausse de 15% du prix de ces machines renforce la tension sur les budgets. Cast AI cite alors les instances H200 comme source de pression budgétaire pour des nœuds spécialisés loin de leur plein potentiel.
Laisser un GPU inactif coûte plusieurs dollars par heure, contre quelques centimes pour un CPU. Pourtant, 95% de la capacité GPU reste inutilisée.
Laurent Gil, cofondateur et président de Cast AI
Un réglage fait au déploiement ne tient plus dans la durée
Un dimensionnement décidé au lancement finit vite par dater. Au fil des semaines, les charges de travail changent de rythme, grossissent, se tassent, puis repartent, si bien qu’un réglage pertinent au jour du déploiement ne reflète plus la réalité économique.
Cast AI défend donc une approche mouvante. Ce suivi passe par un rightsizing continu, l’autoscaling, les instances Spot et l’ajustement des engagements, car une gestion manuelle laisse vite apparaître du gaspillage quand la demande dévie du scénario initial durablement.
Ce que révèle l’étude de Cast AI sur les dérives des infrastructures
Publié à Paris le 22 avril 2026, le rapport « 2026 State of Kubernetes Optimization » s’appuie sur des dizaines de milliers de workloads. Cette base fournit des données de terrain utiles aux responsables infrastructures qui cherchent à rapprocher coûts cloud et usage observé.
Cast AI décrit des dépenses déconnectées de la charge réelle. Sa plateforme cloud-native sert d’appui à une société valorisée à plus d’un milliard de dollars en janvier 2026 après un investissement de Pacific Alliance Ventures, avec BMW, Cisco, FICO, HuggingFace et Swisscom parmi ses clients.