Pulsar 16B vise les performances des modèles 30B même avec deux fois moins de paramètres

Par Yvan Arnoux

Multiverse Computing veut prouver qu’un grand modèle n’a pas toujours besoin d’être massif. Pulsar 16B arrive comme un modèle open source bâti sur l’architecture NVIDIA Nemotron.

Avec 16,15 milliards de paramètres, il revendique un niveau proche de modèles 30B sur des épreuves comme AIME 2025 et GPQA Diamond. La promesse tient dans un raisonnement avancé préservé par compression, avec moins de mémoire à mobiliser et une inférence plus nerveuse sur GPU récents. Le seuil matériel descend.

Pulsar 16B ramène le raisonnement 30B dans un format 16 milliards

Multiverse Computing présente Pulsar 16B comme un modèle de raisonnement open source bâti avec NVIDIA, dans la famille Nemotron. Le pari repose sur une compression de modèles capable de ramener une architecture proche des 30B vers 16,15 milliards de paramètres, sans sacrifier les capacités attendues sur les tâches complexes.

Le modèle conserve 3,1 milliards de paramètres actifs, contre 3,5 milliards pour NVIDIA Nemotron-3-Nano-30B-A3B-BF16. Proposé sous licence Apache 2.0 et publié sur Hugging Face en BF16, FP8 et NVFP4, il vise les équipes qui cherchent un raisonnement avancé dans un format plus léger.

Des benchmarks qui serrent l’écart avec Nemotron 3 Nano

Les résultats communiqués par Multiverse Computing placent Pulsar 16B très près du modèle source. Sur les benchmarks de référence, il atteint 87,22 à AIME 2025, un test de raisonnement mathématique, avec moins de 0,1 point d’écart face à Nemotron 3 Nano et près de 15 points d’avance sur gpt-oss-20B.

Lire aussi :  Aménager son utilitaire : pourquoi une étagère utilitaire bien pensée change tout pour les professionnels en mobilité

La tendance se confirme sur GPQA Diamond, où Pulsar 16B obtient 71,41 contre 58,88 pour gpt-oss-20B. Les écarts annoncés restent nets sur IFBench et BFCL-v4, deux mesures liées au respect des instructions et à l’appel de fonctions, avec respectivement +14 et +11 points.

ÉvaluationPulsar 16BComparaison indiquée
AIME 202587,22Moins de 0,1 point d’écart avec Nemotron 3 Nano, près de 15 points devant gpt-oss-20B
GPQA Diamond71,41Devant gpt-oss-20B à 58,88
IFBenchNon communiqué+14 points face à gpt-oss-20B
BFCL-v4Non communiqué+11 points face à gpt-oss-20B

Moins de mémoire, plus de débit sur GPU Blackwell

La baisse du nombre de poids réduit l’empreinte mémoire par rapport à NVIDIA Nemotron-3-Nano-30B-A3B. Pour les équipes limitées par la mémoire GPU ou par le coût d’exploitation, ce format rend l’exécution plus accessible sur des configurations resserrées, sans basculer vers un modèle de taille trop modeste.

Sur un GPU NVIDIA Blackwell avec 32 requêtes simultanées, Pulsar 16B en FP8 affiche 4 808 tokens par seconde, contre 3 363 pour le modèle de référence, soit 43 % de mieux. Les performances d’inférence gagnent aussi en réactivité, avec une latence réduite au premier token, de 2,18 à 1,24 seconde.

La compression CompactifAI garde les comportements de raisonnement

CompactifAI agit après l’entraînement, sans reconstruire le modèle depuis zéro. La méthode de Multiverse Computing repère des redondances mathématiques dans des réseaux neuronaux entraînés, puis les retire avec l’appui de NVIDIA Model Optimizer et Megatron Bridge, deux briques utilisées pour préparer ce modèle plus dense.

Lire aussi :  1 français sur 3 avoue avoir plus de 500 mails non lus dans sa boîte mail principale

Le résultat conserve la base hybride Mamba2-Transformer avec Mixture-of-Experts, les outils et les mêmes formats de prompts que Nemotron. Cette continuité facilite l’intégration, tout en faisant passer le modèle de 31,6 milliards à 16,15 milliards de paramètres, et de 3,5 à 3,1 milliards actifs.

Jusqu’à présent, exécuter des modèles d’IA avancés localement impliquait nécessairement des compromis entre taille et performance. Avec Pulsar 16B, nous démontrons qu’il est désormais possible de déployer un raisonnement de niveau frontier sans les contraintes d’infrastructure et les coûts associés aux environnements cloud à grande échelle.

Enrique Lizaso, cofondateur et CEO de Multiverse Computing

Contextes longs et usages visés en entreprise

Multiverse Computing cite des tests sur LongBench, AA-LCR, RULER et plusieurs variantes de Needle-in-a-Haystack, ou NIAH. Pulsar 16B conserve une précision presque parfaite sur la recherche d’information dans de longues fenêtres de texte dépassant 100 000 tokens, puis reste proche du modèle non compressé sur RULER.

Ces résultats parlent aux entreprises qui traitent des contrats, tickets, rapports ou bases internes volumineuses. Le traitement documentaire, les assistants métiers, les workflows agentiques et le déploiement on-premise font partie des usages visés, surtout quand la confidentialité, la latence et les coûts cloud pèsent dans les choix techniques.

Notre site est un média approuvé par Google Actualité.

Ajoutez Mediavenir dans votre liste de favoris pour ne manquer aucune news !

nous rejoindre en un clic
google news follow

Rejoignez la communauté

Laisser un commentaire