Multiverse Computing veut prouver qu’un grand modèle n’a pas toujours besoin d’être massif. Pulsar 16B arrive comme un modèle open source bâti sur l’architecture NVIDIA Nemotron.
Avec 16,15 milliards de paramètres, il revendique un niveau proche de modèles 30B sur des épreuves comme AIME 2025 et GPQA Diamond. La promesse tient dans un raisonnement avancé préservé par compression, avec moins de mémoire à mobiliser et une inférence plus nerveuse sur GPU récents. Le seuil matériel descend.
Pulsar 16B ramène le raisonnement 30B dans un format 16 milliards
Multiverse Computing présente Pulsar 16B comme un modèle de raisonnement open source bâti avec NVIDIA, dans la famille Nemotron. Le pari repose sur une compression de modèles capable de ramener une architecture proche des 30B vers 16,15 milliards de paramètres, sans sacrifier les capacités attendues sur les tâches complexes.
Le modèle conserve 3,1 milliards de paramètres actifs, contre 3,5 milliards pour NVIDIA Nemotron-3-Nano-30B-A3B-BF16. Proposé sous licence Apache 2.0 et publié sur Hugging Face en BF16, FP8 et NVFP4, il vise les équipes qui cherchent un raisonnement avancé dans un format plus léger.
Des benchmarks qui serrent l’écart avec Nemotron 3 Nano
Les résultats communiqués par Multiverse Computing placent Pulsar 16B très près du modèle source. Sur les benchmarks de référence, il atteint 87,22 à AIME 2025, un test de raisonnement mathématique, avec moins de 0,1 point d’écart face à Nemotron 3 Nano et près de 15 points d’avance sur gpt-oss-20B.
La tendance se confirme sur GPQA Diamond, où Pulsar 16B obtient 71,41 contre 58,88 pour gpt-oss-20B. Les écarts annoncés restent nets sur IFBench et BFCL-v4, deux mesures liées au respect des instructions et à l’appel de fonctions, avec respectivement +14 et +11 points.
| Évaluation | Pulsar 16B | Comparaison indiquée |
|---|---|---|
| AIME 2025 | 87,22 | Moins de 0,1 point d’écart avec Nemotron 3 Nano, près de 15 points devant gpt-oss-20B |
| GPQA Diamond | 71,41 | Devant gpt-oss-20B à 58,88 |
| IFBench | Non communiqué | +14 points face à gpt-oss-20B |
| BFCL-v4 | Non communiqué | +11 points face à gpt-oss-20B |
Moins de mémoire, plus de débit sur GPU Blackwell
La baisse du nombre de poids réduit l’empreinte mémoire par rapport à NVIDIA Nemotron-3-Nano-30B-A3B. Pour les équipes limitées par la mémoire GPU ou par le coût d’exploitation, ce format rend l’exécution plus accessible sur des configurations resserrées, sans basculer vers un modèle de taille trop modeste.
Sur un GPU NVIDIA Blackwell avec 32 requêtes simultanées, Pulsar 16B en FP8 affiche 4 808 tokens par seconde, contre 3 363 pour le modèle de référence, soit 43 % de mieux. Les performances d’inférence gagnent aussi en réactivité, avec une latence réduite au premier token, de 2,18 à 1,24 seconde.
La compression CompactifAI garde les comportements de raisonnement
CompactifAI agit après l’entraînement, sans reconstruire le modèle depuis zéro. La méthode de Multiverse Computing repère des redondances mathématiques dans des réseaux neuronaux entraînés, puis les retire avec l’appui de NVIDIA Model Optimizer et Megatron Bridge, deux briques utilisées pour préparer ce modèle plus dense.
Le résultat conserve la base hybride Mamba2-Transformer avec Mixture-of-Experts, les outils et les mêmes formats de prompts que Nemotron. Cette continuité facilite l’intégration, tout en faisant passer le modèle de 31,6 milliards à 16,15 milliards de paramètres, et de 3,5 à 3,1 milliards actifs.
Jusqu’à présent, exécuter des modèles d’IA avancés localement impliquait nécessairement des compromis entre taille et performance. Avec Pulsar 16B, nous démontrons qu’il est désormais possible de déployer un raisonnement de niveau frontier sans les contraintes d’infrastructure et les coûts associés aux environnements cloud à grande échelle.
Enrique Lizaso, cofondateur et CEO de Multiverse Computing
Contextes longs et usages visés en entreprise
Multiverse Computing cite des tests sur LongBench, AA-LCR, RULER et plusieurs variantes de Needle-in-a-Haystack, ou NIAH. Pulsar 16B conserve une précision presque parfaite sur la recherche d’information dans de longues fenêtres de texte dépassant 100 000 tokens, puis reste proche du modèle non compressé sur RULER.
Ces résultats parlent aux entreprises qui traitent des contrats, tickets, rapports ou bases internes volumineuses. Le traitement documentaire, les assistants métiers, les workflows agentiques et le déploiement on-premise font partie des usages visés, surtout quand la confidentialité, la latence et les coûts cloud pèsent dans les choix techniques.